Modelos de Reasoning e Recompensas Verificáveis¶

1. O campo se move enquanto escrevemos¶

Este capítulo é o que encerra a parte sobre alignment, e é também o que tem maior probabilidade de estar desatualizado quando for lido. Os dois capítulos anteriores cobriram material que se estabilizou: supervised fine-tuning seguido por aprendizado de preferências é o pipeline canônico de pós-treinamento, e Direct Preference Optimization é a simplificação desse pipeline para a qual a comunidade de código aberto convergiu ao longo de 2024 e 2025 [src_005]. O reasoning ainda não atingiu esse nível de consenso. O Group Relative Policy Optimization (GRPO), introduzido no início de 2024 por Shao e colegas na DeepSeek, somado ao paradigma Reinforcement Learning from Verifiable Rewards (RLVR) popularizado pelo DeepSeek-R1 no início de 2025, atualmente parecem ser a resposta correta para treinar modelos capazes de resolver problemas de matemática e programação produzindo longas cadeias de reasoning intermediário [src_032, src_035]. Essa pode não parecer mais a resposta correta daqui a doze meses. O leitor que chegar a este capítulo no fim de 2026 deve esperar ou uma revisão atualizada no repositório ou, no mínimo, uma seção sinalizando o que mudou. O RLHF Book de Lambert, que tratamos como referência atualizada para toda esta parte do volume, faz a mesma ressalva explicitamente: o consenso sobre qual algoritmo de aprendizado de preferências ou de RL adotar ainda está se formando, e as recomendações são revisadas a cada edição [src_005].

O que este capítulo procura manter estável é o arcabouço conceitual. Existem duas ideias distintas agrupadas sob o rótulo "chain-of-thought" (CoT), e confundi-las contamina a intuição sobre o que são modelos de reasoning. Existe um algoritmo de otimização específico — o GRPO — cujo truque central (uma baseline de grupo substituindo uma função de valor aprendida) é simples o suficiente para ser escrito em um parágrafo e dificilmente desaparecerá, mesmo que o nome atual deixe de ser usado. Existe uma escolha específica de design de recompensa — RLVR — cujo escopo (matemática, código, qualquer coisa com um verificador programático) e cujos limites (escrita aberta, factualidade em consultas de domínio aberto, qualquer coisa em que humanos não consigam concordar rapidamente sobre uma resposta de referência) são mais claros do que os detalhes da otimização. A seção 2 trata dos dois sabores de CoT, as seções 3 a 6 tratam de GRPO e RLVR como componentes algorítmico e de recompensa, a seção 7 trata da computação em tempo de teste como um eixo de escala distinto das scaling laws de tempo de treinamento do Capítulo 9, e a seção 8 retorna ao enquadramento de campo-em-fluxo com uma lista de ressalvas honestas. O ensaio "Why We Think" de Lilian Weng é a leitura suplementar que faz um panorama da paisagem mais ampla que este capítulo apenas tangencia, e o recomendamos como leitura adicional para qualquer leitor que queira o quadro completo [src_044].

2. Dois sabores de chain-of-thought¶

A expressão "chain-of-thought" passou a significar duas coisas distintas, e precisamos mantê-las separadas.

O primeiro sentido, devido a Wei e colegas em 2022, é o CoT por prompting: o usuário fornece ao modelo um prompt few-shot cujos exemplares incluem não apenas pares pergunta-resposta, mas trios pergunta-justificativa-resposta, em que a justificativa é uma sequência detalhada de passos intermediários de reasoning em linguagem natural [src_036]. No momento da inferência, o modelo continua o padrão, produzindo sua própria justificativa antes da resposta. Wei e colegas mostraram que essa simples mudança no prompting melhora drasticamente o desempenho em benchmarks de reasoning aritmético, de senso comum e simbólico em modelos suficientemente grandes — mais notavelmente o PaLM 540B em GSM8K, em que o CoT por prompting alcançou uma pontuação de estado da arte que superou o melhor resultado anterior obtido com GPT-3 finetunado e um verificador [src_036]. O modelo em si não foi alterado. A melhoria veio inteiramente da mudança da distribuição de entrada no momento da inferência.

O segundo sentido, introduzido pelo DeepSeek-R1 no início de 2025 (e pelo o1 da OpenAI em torno do mesmo período, embora sem um artigo público para citar), é o CoT treinado por RL: o modelo é treinado para produzir longos traços de reasoning, com aprendizado por reforço recompensando completions que chegam a respostas corretas [src_032]. O reasoning deixa de ser elicitado; passa a ser um comportamento aprendido. O modelo foi incentivado a gastar mais tokens em trabalho intermediário, a interromper a si mesmo, a verificar seus próprios passos e a retroceder quando um caminho deixa de parecer promissor. Os autores do DeepSeek-R1 descrevem o comportamento resultante como abrangendo auto-reflexão, verificação e adaptação dinâmica de estratégia, e são explícitos ao afirmar que é o framework de RL que produz esses comportamentos, e não um prompt engenhoso [src_032].

Os dois paradigmas diferem quanto à origem da qualidade do reasoning e quanto a como ela é verificada. O CoT por prompting depende da distribuição de pretraining do modelo: a justificativa que o modelo gera é o que sua prior de modelagem de linguagem considera plausível dados os exemplares few-shot, e não há nenhum sinal durante a inferência que distinga uma cadeia de inferências sólida de uma fluente porém errada. O CoT treinado por RL, em contraste, conta com um sinal de recompensa que toca o reasoning indiretamente por meio do seu desfecho: se a resposta final está errada, todo passo da justificativa que a produziu fica implicado e é desencorajado ao longo de treinamento suficiente. Os dois paradigmas não são exclusivos — o modelo de produção lançado pelo DeepSeek-R1 usa ambos — mas são pedagogicamente distintos, e o restante deste capítulo trata do segundo.

💡 Resultado-chave

O CoT por prompting e o CoT treinado por RL não são o mesmo paradigma — um muda a distribuição de entrada na inferência; o outro muda os pesos.

3. O que Wei 2022 deixou em aberto¶

O artigo de Wei e colegas de 2022 é a âncora histórica para chain-of-thought como técnica e continua sendo a citação correta para a forma elicitada por prompting. Três pontos desse artigo se conectam à história moderna dos modelos de reasoning.

Primeiro, o CoT por prompting só funcionou em escala. Wei e colegas observaram que os ganhos sobre o prompting padrão eram emergentes: modelos pequenos não se beneficiavam, e em alguns casos as justificativas que produziam eram menos acuradas do que respostas diretas. Apenas em modelos suficientemente grandes — para os benchmarks de aritmética que estudaram, em torno do PaLM 540B e do GPT-3 175B — a técnica produziu melhorias substanciais [src_036]. A interpretação no artigo de 2022 era que o reasoning intermediário é, em si, uma capacidade que escala com o tamanho do modelo, e que solicitar ao modelo que a use é o que a desbloqueia. O enquadramento foi produtivamente contestado. Schaeffer, Miranda e Koyejo (2023) argumentam que a aparente abrupticidade e imprevisibilidade das habilidades emergentes é, em larga medida, um artefato métrico: métricas não lineares ou descontínuas como acurácia de correspondência exata produzem a aparência de transições de fase, enquanto métricas lineares ou contínuas sobre as mesmas saídas revelam um escalamento suave e previsível [src_056].

🎯 Intuição

Imagine avaliar aritmética de múltiplos passos por correspondência exata: um modelo que acerta a resposta \(0\%\) das vezes em uma escala e \(30\%\) na próxima parece uma transição de fase — a capacidade liga-se em escala. Avalie as mesmas saídas por distância de edição em nível de token e a curva é suave: o "salto" foi a métrica binarizadora, não a capacidade subjacente. A tese de Schaeffer é que boa parte da literatura de habilidades emergentes está lendo a métrica como o fenômeno.

A crítica não elimina o efeito prático — nas escalas em que o CoT por prompting de fato ajuda, ele ajuda muito —, mas complica a leitura "emergente em escala" e é o contrapeso correto a ter em mente ao ler o resultado de 2022.

Segundo, o reasoning ficava sem verificação. Uma chain of thought é, no enquadramento de Wei, uma janela para o comportamento do modelo, mas os autores tiveram o cuidado de observar que caracterizar plenamente se uma dada cadeia de fato sustenta a resposta permanece um problema em aberto [src_036]. Não havia mecanismo, no paradigma de CoT por prompting, para contestar justificativas superficialmente fluentes mas factualmente incorretas. O apêndice do artigo de 2022 contém exemplos do modelo chegando a respostas corretas por meio de passos de reasoning que eram em si incorretos e, inversamente, chegando a respostas erradas por meio de passos de reasoning que pareciam localmente plausíveis. Sem um sinal de desfecho para avaliar a cadeia, isso é uma característica do paradigma, não um defeito a ser corrigido dentro dele.

Terceiro, o CoT por prompting não modifica o modelo. Após a execução dos experimentos do artigo, o modelo de linguagem subjacente continua sendo exatamente o mesmo conjunto de pesos com que se iniciou o experimento. Não há aprendizado. Isso importa para o enquadramento da seção 4 em diante: a passagem de "elicitar reasoning no momento da inferência" para "treinar reasoning nos pesos" não é um refinamento do CoT, mas um paradigma diferente com uma alavanca diferente. O artigo de 2022 abriu a questão; não propôs uma maneira de fechar o laço entre qualidade da justificativa e correção do desfecho.

4. Group Relative Policy Optimization¶

O GRPO é o algoritmo que sustenta a receita moderna de modelos de reasoning, introduzido por Shao e colegas na DeepSeek em fevereiro de 2024 no artigo do DeepSeekMath [src_035]. É apresentado como uma variante do Proximal Policy Optimization (PPO) que dispensa o crítico de função de valor, e todo o conteúdo algorítmico pode ser enunciado em quatro linhas.

Para cada prompt \(x\) extraído de um conjunto de dados \(\mathcal{D}\), amostre um grupo de \(K\) completions \(\{y_1, \ldots, y_K\}\) a partir da política atual \(\pi_{\theta_\text{old}}\). Calcule uma recompensa por completion \(r_i = r(x, y_i)\) para cada uma — qual é a função de recompensa, deixamos em aberto por enquanto e voltamos a isso na seção 5. Forme a vantagem por completion como a recompensa padronizada dentro do grupo,

\[A_i = \frac{r_i - \mathrm{mean}(r_1, \ldots, r_K)}{\mathrm{std}(r_1, \ldots, r_K)},\]

⚠️ Armadilha

A padronização tem duas partes móveis independentes. A centralização (\(r_i - \mathrm{mean}\)) é a baseline propriamente dita — é o que subtrai a variância de recompensa em nível de prompt que o crítico deveria absorver. A escala (divisão pelo \(\mathrm{std}\)) é o que dá à vantagem invariância em relação a diferenças de magnitude de recompensa entre prompts. Algumas implementações mantêm apenas a centralização e descartam a escala; o capítulo (e a forma canônica do DeepSeek-R1) usa as duas.

e aplique um objetivo substituto recortado no estilo PPO usando essas vantagens, com uma penalidade de KL contra uma política de referência fixa \(\pi_\text{ref}\):

🎯 Intuição

O \(\mathrm{clip}\) impede que a política se mova longe demais por atualização ao zerar o gradiente quando a razão de importância \(\rho_i\) deixa o intervalo \([1-\varepsilon, 1+\varepsilon]\). Sem ele, um único rollout com vantagem grande pode levar a política para fora da distribuição; o clip é o que faz com que o substituto seja uma aproximação local honesta do verdadeiro policy gradient.

\[\mathcal{J}_\text{GRPO}(\theta) = \mathbb{E}_{x \sim \mathcal{D},\, \{y_i\} \sim \pi_{\theta_\text{old}}}\!\left[\frac{1}{K}\sum_{i=1}^{K} \min\!\left(\rho_i(\theta) A_i,\; \mathrm{clip}(\rho_i(\theta), 1-\varepsilon, 1+\varepsilon) A_i\right) - \beta\, D_\text{KL}\!\left(\pi_\theta \,\|\, \pi_\text{ref}\right)\right],\]

em que a razão de importância é \(\rho_i(\theta) = \pi_\theta(y_i \mid x) / \pi_{\theta_\text{old}}(y_i \mid x)\), o parâmetro de clipping \(\varepsilon\) controla quanto a política pode se mover por atualização e o coeficiente de KL \(\beta\) controla quanto a política pode se afastar da referência [src_032, src_035]. Esta é a forma escrita no artigo do DeepSeek-R1 como Equação 1 e no artigo do DeepSeekMath que introduziu o GRPO como Equação 3 da seção correspondente [src_032, src_035].

🤔 Pause e pense

O que muda na equação se a padronização \(A_i = (r_i - \mathrm{mean})/\mathrm{std}\) for substituída pela versão mais simples \(A_i = r_i - \mathrm{mean}\)? Quais propriedades do GRPO são carregadas pelo termo \(\mathrm{std}\) e quais permanecem inalteradas? (Tente prever antes de ler o parágrafo de contraste.)

🎯 Intuição

Subtrair qualquer função do prompt das recompensas deixa a esperança do policy gradient inalterada mas reduz sua variância — esse é o argumento clássico de variável de controle. A média dentro do grupo \(\mathrm{mean}(r_1, \ldots, r_K)\) é a função desse tipo mais simples e se adapta automaticamente à escala de recompensa de cada prompt. O truque central do GRPO é precisamente essa substituição: uma baseline sem crítico que é calculada, não aprendida.

O contraste com o PPO é o único detalhe em que vale a pena se demorar. No PPO padrão, a vantagem \(A_i\) é calculada usando uma função de valor aprendida separadamente \(V_\phi(x)\) como \(A_i \approx r_i - V_\phi(x)\) (ou como uma estimativa de vantagem generalizada, GAE — uma baseline com bootstrapping em múltiplos passos que troca viés por variância, usada na implementação canônica do PPO). A função de valor é, ela própria, um modelo, tipicamente do mesmo tamanho da política, que precisa ser treinado em paralelo à política e mantido em memória. Shao e colegas motivaram o GRPO precisamente como uma forma de dispensar esse crítico: a média do grupo \(\mathrm{mean}(r_1, \ldots, r_K)\) atua como uma baseline condicionada ao prompt que subtrai a mesma variância de recompensa em nível de prompt que o crítico deveria absorver, mas sem nenhuma rede neural para treinar [src_035]. A padronização por \(\mathrm{std}(r_1, \ldots, r_K)\) é um truque de redução de variância que torna a vantagem invariante à escala diante de diferenças de magnitude de recompensa entre prompts. O artigo do DeepSeekMath relata que essa mudança reduz aproximadamente pela metade o consumo de memória do treinamento em comparação com o PPO em um tamanho de batch comparável, porque a rede de valor desaparece [src_035]. Os autores do DeepSeek-R1 levam adiante a mesma justificativa: o GRPO foi adotado para simplificar o processo de treinamento e reduzir o consumo de recursos do PPO, que é amplamente usado na fase de RL dos LLMs [src_032].

🔗 Conexão

O Capítulo 11 (De SFT a RLHF) derivou o substituto recortado do PPO e introduziu o crítico de função de valor como a baseline por prompt. Este capítulo herda o clip e substitui o crítico pela baseline amostral dentro do grupo; tudo o mais no objetivo da §4 é a maquinaria PPO do Capítulo 11.

Uma implementação de referência do laço interno, em pseudocódigo no estilo Python, ocupa cerca de uma dúzia de linhas:

# Per training step.
batch = sample_prompts(D, batch_size=N)
for x in batch:
    # 1. Sample K completions from the current (old) policy.
    ys = [policy_old.generate(x) for _ in range(K)]

    # 2. Score each completion with the reward function.
    rs = [reward_fn(x, y) for y in ys]

    # 3. Form within-group advantages.
    r_mean = mean(rs)
    r_std = std(rs) + 1e-8
    As = [(r - r_mean) / r_std for r in rs]

    # 4. PPO-style clipped surrogate + KL penalty.
    for y_i, A_i in zip(ys, As):
        rho = policy.logprob(y_i, x).exp() / policy_old.logprob(y_i, x).exp().detach()
        loss_i = -min(rho * A_i, clip(rho, 1 - eps, 1 + eps) * A_i)
        loss_i += beta * kl(policy, policy_ref, x, y_i)

A estrutura é reconhecivelmente PPO. A única linha que mudou é o cálculo da vantagem, que agora é uma estatística dentro do grupo em vez de uma chamada ao crítico. Em código de produção, as \(K\) completions por prompt são processadas em batch conjuntamente, o termo de KL é aproximado usando o estimador não enviesado do DeepSeek-R1 (o estimador K3, \(r - \log r - 1\) para \(r = \pi_\text{ref}/\pi_\theta\), que é não enviesado, não negativo e tem variância menor que a do log-razão ingênuo), e a política de referência é periodicamente atualizada para acompanhar a política atual — o DeepSeek-R1-Zero atualiza a referência a cada 400 passos [src_032]. Nenhum desses detalhes de produção altera o conteúdo conceitual do algoritmo.

💡 Resultado-chave

O GRPO é PPO com o crítico de função de valor substituído por uma baseline amostral dentro do grupo.

🔄 Recapitulação

Complete a equação. Escreva a vantagem \(A_i\) do GRPO em termos das recompensas por completion \(r_1, \ldots, r_K\).
Explique por que o GRPO reduz pela metade a memória de treinamento. Qual rede do PPO o GRPO descarta, e o que a baseline dentro do grupo coloca no lugar?
Compare GRPO e PPO no nível dos componentes de rede. Nomeie as quatro redes mantidas em memória durante o treinamento PPO, e qual delas sobrevive no GRPO.

5. Reinforcement Learning from Verifiable Rewards¶

O GRPO, por si só, não diz de onde vem a recompensa \(r(x, y)\). No RLHF clássico, conforme tratado no Capítulo 11, a recompensa é a saída de um modelo de recompensa aprendido, treinado em dados de preferências humanas: o modelo de recompensa é uma segunda rede grande, a política é treinada contra sua saída escalar, e o modo de falha bem conhecido é o reward hacking, em que a política encontra completions que recebem pontuação alta sob o modelo de recompensa, mas que de fato não são preferidas por humanos. Manter um modelo de recompensa separado também é caro — uma segunda rede grande na memória e um segundo pipeline de treinamento a manter atualizado.

🔗 Conexão

O modelo de recompensa de Bradley-Terry e o laço PPO que o utiliza foram derivados no Capítulo 11 (De SFT a RLHF). O contraste desta seção depende de manter aquela derivação na cabeça: o RLVR substitui a recompensa escalar aprendida por uma programática, deixando intacto o restante do laço de RL.

O RLVR — Reinforcement Learning from Verifiable Rewards — propõe uma alternativa mais incisiva. Quando a tarefa admite uma checagem programática, nenhum modelo de recompensa aprendido é necessário. Para matemática com respostas determinísticas, exige-se que o modelo produza sua resposta final em um formato especificado, tipicamente dentro de uma caixa, e a recompensa é binária: bate com a referência ou não bate [src_032]. Para programação competitiva, um compilador executa o código submetido pelo modelo contra um conjunto de testes unitários, e a recompensa é, novamente, binária ou graduada pela fração de testes aprovados [src_032]. A função de recompensa é um trecho de código, não um modelo aprendido.

Os autores do DeepSeek-R1 descrevem com precisão o design de recompensa RLVR usado no DeepSeek-R1-Zero. A recompensa é a soma de dois componentes baseados em regras: uma recompensa de acurácia, que avalia se a resposta contém uma resposta final correta no formato especificado, e uma recompensa de formato, que incentiva o modelo a encapsular seu reasoning dentro de tags <think>...</think> e sua resposta dentro de tags <answer>...</answer> [src_032]. Não há nenhum modelo de recompensa neural em lugar algum no DeepSeek-R1-Zero. A recompensa total é

\[\text{Reward}_\text{rule} = \text{Reward}_\text{accuracy} + \text{Reward}_\text{format},\]

🤔 Pause e pense

Dado que \(\text{Reward}_\text{rule} = \text{Reward}_\text{accuracy} + \text{Reward}_\text{format}\), o que um modelo poderia aprender a otimizar que receberia pontuação alta sob essa recompensa sem produzir reasoning sólido? Esboce um ou dois modos de falha antes de seguir. (O quarto ponto da §8 retoma essa pergunta.)

com os dois componentes combinados em peso igual [src_032]. Os autores são explícitos quanto ao motivo dessa escolha: modelos de recompensa neurais, em sua experiência, são suscetíveis a reward hacking durante reinforcement learning em larga escala, e re-treiná-los acrescenta computação substancial e complexidade ao pipeline [src_032]. Uma recompensa baseada em regras contorna ambos os problemas. Ela não pode ser hackeada no sentido convencional, porque não há sinal aprendido a ser explorado — a única forma de obter pontuação alta é estar certo.

A combinação de GRPO com RLVR é, portanto, a receita moderna de modelos de reasoning em sua forma mais pura: amostre um grupo de completions a partir da política atual, pontue cada uma com uma checagem programática, tome a recompensa padronizada dentro do grupo como a vantagem e atualize a política com o objetivo substituto recortado do PPO. Sem modelo de recompensa. Sem crítico. Sem preferências rotuladas por humanos. O quadro em tempo de treinamento se aproxima mais do self-play do AlphaZero (o regime em que um modelo gera os próprios dados de treinamento jogando contra si mesmo, com desfechos avaliados programaticamente — o análogo estrutural do grupo de \(K\) rollouts do GRPO somado à recompensa verificável) do que do pipeline clássico de RLHF do Capítulo 11.

💡 Resultado-chave

GRPO + RLVR remove tanto o crítico quanto o modelo de recompensa da fase de RL, deixando apenas uma política e uma checagem programática.

🔄 Recapitulação

Explique com suas palavras por que o RLVR contorna o reward hacking. Por que a ausência de um modelo de recompensa aprendido torna indisponível o modo de falha clássico de reward hacking?
Preveja. Quais das seguintes famílias de tarefas admitem RLVR, e por quê: (a) programação competitiva; (b) sumarização; © predição de interação fármaco-alvo com leitura experimental úmida; (d) ranqueamento de manchetes por relevância à consulta de um usuário?
Complete. GRPO + RLVR remove tanto ___ quanto ___ da fase de RL.

6. DeepSeek-R1 — como é a receita de produção¶

O DeepSeek-R1-Zero é a ilustração mais limpa do RLVR puro: parte do modelo base DeepSeek-V3 e aplica GRPO com recompensas baseadas em regras diretamente, sem nenhum supervised fine-tuning antes da fase de RL [src_032]. O resultado é marcante. No AIME 2024, a pontuação pass@1 do DeepSeek-R1-Zero sobe de \(15{,}6\%\) no início do treinamento para \(77{,}9\%\) ao final, e a auto-consistência sobre 16 amostras (a técnica de inferência que amostra \(K\) cadeias de reasoning independentes a partir do mesmo prompt e toma a resposta majoritária) eleva essa pontuação para \(86{,}7\%\) — o que excede a pontuação média dos participantes humanos da competição AIME [src_032]. O comprimento médio das respostas cresce em paralelo à acurácia: o modelo aprende a gastar mais tokens em seu reasoning ao longo do treinamento, sem nenhuma instrução explícita para fazê-lo [src_032]. Os autores do DeepSeek-R1 destacam uma transição marcante ao longo dessa trajetória, que chamam de "aha moment": em um determinado ponto do treinamento, o modelo desenvolve espontaneamente o hábito de interromper o próprio reasoning com a palavra "wait" ou seus análogos, voltar a reconsiderar um passo anterior e refazer o cálculo [src_032]. O aha moment é apresentado como um comportamento emergente induzido pela pressão do RL, e não algo elicitado por prompting.

O RLVR puro, no entanto, tem custos que aparecem em tudo que não seja matemática e código. As saídas do DeepSeek-R1-Zero sofrem com legibilidade ruim e mistura de idiomas — o modelo ocasionalmente combina inglês e chinês dentro de uma única resposta de chain-of-thought — e sua capacidade fora dos domínios verificáveis é limitada [src_032]. O DeepSeek-R1, a variante lançada, aborda essas questões com um pipeline em múltiplas etapas que adiciona supervised fine-tuning sobre o núcleo de RLVR. O pipeline começa com uma fase de "cold-start" na qual o modelo base V3 é submetido a supervised fine-tuning sobre um pequeno conjunto de exemplos longos de CoT de alta qualidade; segue-se uma fase de RL que usa GRPO com recompensas baseadas em regras mais uma recompensa de consistência linguística; o modelo resultante é então usado para gerar um conjunto maior de dados de reasoning via rejection sampling (gerando muitas completions candidatas e mantendo apenas aquelas que passam por um filtro de qualidade — aqui, um verificador sobre os traços de matemática e código), que é combinado com dados não relacionados a reasoning (escrita, factualidade, role-play) e usado para uma segunda rodada de SFT, finalmente seguida por uma segunda fase de RL que adiciona uma recompensa de preferência aprendida para utilidade e inocuidade [src_032]. O DeepSeek-R1 lançado herda o comportamento de reasoning do R1-Zero, mas produz texto mais limpo e legível e generaliza melhor para tarefas que não são de reasoning.

Do pipeline de produção à destilação¶

Esse pipeline em etapas é também a receita que permite que o DeepSeek-R1 seja destilado em modelos menores. A equipe usa o R1 treinado para gerar traços de reasoning e, em seguida, faz supervised fine-tuning de modelos menores de pesos abertos — variando de 1,5B a 70B de parâmetros — sobre esses traços [src_032]. Os modelos destilados retêm uma fração substancial da capacidade de reasoning do R1 sem precisar do pipeline completo de RL, o que é um artefato do mesmo padrão que o Capítulo 9 encontrou em scaling laws: capacidade que reside em um modelo grande pode às vezes ser transferida para um menor por meio de um conjunto de treinamento curado, mesmo que o modelo menor não pudesse ter aprendido a capacidade do zero.

O resultado da destilação é também a razão prática pela qual o DeepSeek-R1 importou especificamente em 2025: foi o primeiro modelo de reasoning de pesos abertos que se aproximou da qualidade da série o1 da OpenAI nos benchmarks padrão de matemática e código, e a receita — incluindo o algoritmo GRPO e o design de recompensa RLVR — foi publicada com detalhe suficiente para ser reproduzida. Os modelos de reasoning de pesos abertos subsequentes seguiram variantes desse template.

7. Computação em tempo de teste como eixo de escala¶

🔗 Conexão

O Capítulo 9 (Scaling Laws) fixou dois eixos — parâmetros \(N\) e tokens \(D\) — em computação de treinamento \(C\) fixa, com a alocação de Chinchilla dizendo às equipes como dividir um orçamento. Esta seção acrescenta um terceiro eixo em um ponto distinto do ciclo de vida do modelo: tokens gastos na inferência. O quadro de Chinchilla continua valendo para o pretraining; a computação em tempo de teste o estende.

Há mais um movimento conceitual que este capítulo precisa tornar explícito. O Capítulo 9 discutiu scaling laws como relações entre computação de treinamento, tamanho do conjunto de dados e capacidade do modelo — o quadro estilo Chinchilla em que um orçamento fixo de computação é melhor gasto em uma proporção específica de parâmetros e tokens. Modelos de reasoning adicionam um terceiro eixo: a computação gasta no momento da inferência, na forma de quantos tokens de reasoning o modelo tem permissão de produzir antes de se comprometer com uma resposta.

A observação empírica do treinamento do DeepSeek-R1-Zero é que esse eixo é real. Conforme a pontuação pass@1 no AIME subiu de \(15{,}6\%\) para \(77{,}9\%\) ao longo do treinamento com GRPO, o comprimento médio das respostas cresceu em compasso — o modelo aprendeu, sob o sinal de RL, que gastar mais tokens em reasoning intermediário era uma estratégia vencedora [src_032]. A dinâmica de treinamento não produziu apenas um modelo melhor a uma computação fixa; produziu um modelo que usa a computação no momento da inferência de forma diferente. Para uma pergunta que não exige muito reasoning, o modelo produz uma resposta curta; para um problema difícil, produz uma longa chain of thought, às vezes com milhares de tokens, frequentemente com retrocesso e auto-verificação [src_032].

🤔 Pause e pense

Durante o treinamento do R1-Zero, a pontuação pass@1 no AIME sobe em compasso com o comprimento médio das respostas. O reasoning mais longo causa a acurácia mais alta, ou os dois apenas correlacionam — ambos produzidos por algum terceiro fator no sinal de RL? O que distinguiria as duas leituras? (Tente prever antes de seguir.)

🎯 Intuição

A observação da §6 — de que o R1-Zero gasta respostas curtas em perguntas fáceis e longas em perguntas difíceis — é o que autoriza o salto de "co-crescimento durante o treinamento" para "computação em tempo de inferência é um eixo de escala". O modelo aprendeu a alocar computação por consulta, não apenas em média ao longo do treinamento. Essa é a diferença entre um modelo de computação fixa que por acaso é melhor e um modelo que usa sua computação de forma diferente.

O ensaio "Why We Think" de Lilian Weng faz um panorama desse desenvolvimento em termos mais amplos, enquadrando a computação em tempo de teste como um recurso adicional que o modelo pode ser treinado a alocar e conectando-a a uma literatura mais ampla sobre computação adaptativa e inferência em variáveis latentes [src_044]. O ensaio não é fonte primária de nenhuma alegação técnica específica deste capítulo, mas é o panorama contemporâneo mais abrangente da ideia de computação em tempo de teste na era pós-R1, e o recomendamos como leitura adicional para leitores que queiram o contexto mais amplo. O ponto a ser retirado dele é conceitual: computação em tempo de treinamento e computação em tempo de inferência são alavancas distintas, e modelos de reasoning constituem o regime em que a segunda começou a importar tanto quanto a primeira.

💡 Resultado-chave

Computação em tempo de treinamento e computação em tempo de inferência são alavancas distintas, e modelos de reasoning são o regime em que a segunda passa a importar tanto quanto a primeira.

🔄 Recapitulação

Complete. Modelos de reasoning adicionam um terceiro eixo ao quadro de Chinchilla: computação em ___, paga em ___.
Compare. Qual a diferença entre "um modelo que usa mais computação de inferência" e "um modelo que usa a computação de inferência de forma diferente"? Qual dos dois o R1-Zero exibe?
Preveja. Se um modelo for treinado com um teto fixo de comprimento máximo de resposta, o eixo da §7 ainda seria visível em sua dinâmica de treinamento? Por quê ou por que não?

8. Ressalvas honestas¶

A seção 1 enquadrou este capítulo como o tópico mais fluido do livro. A seção 8 o encerra explicitando as questões em aberto, em seis pontos curtos.

Primeiro, a questão do algoritmo não está resolvida. Na data de corte deste volume, em abril de 2026, o RLHF Book de Lambert caracteriza o consenso operacional como: use DPO quando os dados disponíveis forem dados offline de preferências pareadas e a simplicidade do treinamento for fundamental, use GRPO com RLVR quando a tarefa admitir uma recompensa verificável e a amostragem online for viável, e use PPO clássico quando nenhuma dessas condições se sustentar e houver recursos de engenharia disponíveis [src_005]. Esse consenso é provisório. Novos otimizadores, novos designs de recompensa e novos resultados teóricos estão sendo publicados em um ritmo que excede o ciclo de revisão de qualquer livro impresso. O arcabouço deste capítulo — GRPO como otimização, RLVR como design de recompensa — deve ser lido como o instantâneo das melhores práticas no início de 2026, e não como uma previsão sobre como será 2027.

Segundo, o escopo do RLVR é mais estreito do que o escopo do reasoning. O RLVR funciona bem precisamente onde a tarefa admite um verificador programático: matemática com respostas determinísticas, programação competitiva com casos de teste executáveis, problemas de lógica formal com provas verificáveis, certos problemas de física e química em que a resposta se reduz a um número. Não está claro ainda se o mesmo paradigma se estende a domínios menos verificáveis. Escrita aberta, a utilidade de uma resposta em diálogo, a factualidade de uma resposta sobre um evento atual, a solidez de um argumento jurídico, a adequação de uma recomendação médica — nenhuma delas admite uma checagem binária que possa ser embutida em uma função de recompensa. O pipeline completo do DeepSeek-R1 já concede esse ponto implicitamente: suas fases pós-RLVR reintroduzem um modelo de recompensa aprendido para utilidade e inocuidade, porque recompensas baseadas em regras não cobrem essas dimensões [src_032]. Estender o treinamento com recompensas verificáveis a famílias de tarefas mais amplas é uma das questões de pesquisa mais ativas no campo, e o consenso é que ela não está resolvida [src_005].

Riscos conceituais no rótulo e na recompensa¶

Terceiro, "reasoning" carrega muito peso como rótulo. O que os benchmarks atuais medem sob o título de reasoning — desempenho em problemas de competições de matemática, em desafios de programação, em respostas a perguntas de múltiplas etapas com resposta determinística — é progresso genuíno, mas não é a mesma coisa que reasoning no sentido filosófico mais amplo, e a distância entre os dois é algo que o campo ainda debate. Um modelo que aprendeu a produzir cadeias mais longas de regras computacionais memorizadas pode pontuar muito bem no AIME sem fazer nada que um filósofo reconheceria como inferência. O ensaio de Lilian Weng faz um panorama de várias das questões em aberto que isso suscita sobre se o reasoning verbalizado pelo modelo reflete fielmente a computação que de fato produz a resposta [src_044]. O capítulo não toma posição nesses debates além de nomeá-los; o leitor deve estar ciente de que a palavra "reasoning" em "modelo de reasoning" é um termo técnico, não uma alegação filosófica.

Quarto, o reward hacking não desapareceu. O RLVR contorna o modo de falha clássico do reward-model hacking, mas introduz novos. Um modelo que aprende a formatar a resposta corretamente enquanto produz reasoning que de fato não justifica a resposta ainda recebe pontuação alta sob um sinal RLVR, porque o RLVR recompensa desfechos, não a solidez dos passos intermediários. Correlações espúrias — um modelo aprendendo que certos padrões de formatação ou certas frases levam a respostas marcadas como corretas, independentemente de o reasoning ser sólido — aparecem na prática [src_005]. A discussão do RLHF Book sobre isso é inequívoca: a ausência de um modelo de recompensa aprendido não elimina o desalinhamento entre o que é recompensado e o que se quer; desloca o local do desalinhamento para o design da própria recompensa baseada em regras [src_005].

A taxonomia dos três métodos¶

Quinto, uma tabela comparativa para DPO, PPO e GRPO está resumida abaixo para tornar explícitas as relações entre capítulos. O sinal de recompensa para o DPO são preferências pareadas offline (sem modelo de recompensa treinado, sem laço de RL); para o PPO clássico é a saída escalar de um modelo de recompensa aprendido sobre preferências; para o GRPO com RLVR é uma checagem programática avaliada no tempo de treinamento sobre completions recém-amostradas. O DPO não exige crítico nem amostragem online; o PPO exige tanto um crítico (a rede de valor) quanto amostragem online; o GRPO exige amostragem online, mas elimina o crítico via baseline de grupo. O DPO precisa de dados de preferências pareadas; o PPO precisa de dados de preferências mais prompts para a fase de RL; o GRPO com RLVR precisa de prompts mais uma função de recompensa verificável e nenhum rótulo humano. Os três métodos não estão em concorrência feroz pelo mesmo regime — eles atendem a combinações distintas de disponibilidade de dados e estrutura de recompensa — e a escolha correta depende de qual dessas combinações descreve a situação concreta em pauta [src_005, src_034, src_035].

🔗 Conexão

O DPO é o tópico central do Capítulo 12 (Direct Preference Optimization); ele deriva a identidade de recompensa implícita que permite otimizar preferências pareadas sem modelo de recompensa nem laço de RL. A taxonomia aqui posiciona o DPO em um vértice (aprendizado offline de preferências), o PPO clássico + modelo de recompensa em outro (RL online de preferências) e o GRPO + RLVR em um terceiro (RL online de recompensa verificável).

Um ano de seguimento: corroboração e refinamento¶

Sexto, o ano desde o DeepSeek-R1 preencheu o quadro sem revertê-lo. Entre janeiro de 2025 e abril de 2026, o campo produziu trabalho de seguimento suficiente para testar a tese GRPO+RLVR em múltiplas escalas e a partir de múltiplos laboratórios, e o achado central é que a receita se sustenta. O Kimi k1.5, da Moonshot, lançado na mesma semana do DeepSeek-R1, alcançou números comparáveis em AIME e MATH-500 usando um otimizador diferente (online mirror descent) mas o mesmo sinal de recompensa baseado apenas em desfecho, o que corrobora a alegação central da seção 5: onde uma recompensa verificável está disponível, a escolha do algoritmo de policy gradient importa menos do que a escolha de usar algum [src_061]. O QwQ-32B da Alibaba (março de 2025) reproduziu desempenho em matemática no nível do R1 com 32B de parâmetros densos usando a mesma recompensa baseada em regras com dois componentes, um dado útil para a discussão de destilação na seção 6 [src_064]. O Claude 3.7 Sonnet, da Anthropic (fevereiro de 2025), introduziu o "thinking budget" — um seletor em um único modelo que escolhe quantos tokens de reasoning interno gastar — que é a evidência mais limpa disponível do eixo de computação em tempo de teste discutido na seção 7 [src_065]. A família Qwen3 da Alibaba (maio de 2025) portou um design híbrido de pensamento/não-pensamento com um único conjunto de pesos para pesos abertos e relata desempenho forte frente ao R1 num conjunto amplo de benchmarks [src_057]. Os modelos o3 e a subsequente variante de pensamento do GPT-5, da OpenAI, deram continuidade à linhagem de pesos fechados que vinha do o1; nenhum deles é acompanhado de um artigo, de modo que a trilha técnica pública neste capítulo continua terminando no DeepSeek-R1. No lado do algoritmo, o DAPO (ByteDance Seed e Tsinghua, março de 2025) é o refinamento mais consequente do GRPO até aqui: diagnostica três modos de falha concretos — colapso de entropia por clipping simétrico, o subponderamento de traços longos sob loss média por sequência e batches de gradiente zero quando todos os rollouts de um grupo passam ou falham — e remedia cada um deles, com Clip-Higher, Dynamic Sampling, Token-level Policy Gradient Loss e Overlong Reward Shaping [src_062]. A taxonomia de três métodos do quinto ponto (DPO / PPO clássico / GRPO+RLVR) ainda se sustenta; o DAPO se acomoda dentro da célula GRPO como um refinamento, e o VAPO mais tardio da ByteDance (abril de 2025) se acomoda dentro da célula do PPO clássico como contraponto de que críticos ainda justificam seu lugar [src_063].

🔄 Recapitulação

Compare. Qual das seis ressalvas da §8 é estruturalmente sobre o algoritmo (em aberto no nível do método de otimização), qual é estruturalmente sobre o design da recompensa (em aberto no nível da família de tarefas), e qual é estruturalmente sobre avaliação (o rótulo "reasoning")?
Preveja. O quinto ponto da §8 coloca GRPO+RLVR, PPO clássico e DPO em três regimes distintos. Para cada par, nomeie uma situação em que um seria preferido em relação ao outro e uma em que são intercambiáveis.
Explique. O sexto ponto da §8 relata que o Kimi k1.5 alcança números comparáveis no AIME usando online mirror descent em vez do substituto recortado do PPO. O que esse fato corrobora da §5, e o que deixa em aberto da §4?

9. Onde o livro termina¶

Este capítulo é o último da parte sobre alignment, e a parte sobre alignment é a última desta primeira versão do livro. O material que entrou nesta primeira versão é o material que se estabilizou o suficiente até abril de 2026 para ser registrado por escrito com confiança razoável. O material que ainda não entrou no livro — modelos generativos por difusão e flow-matching, modelos multimodais que estendem o Transformer conjuntamente para visão e áudio, os fundamentos de aprendizado por reforço que este capítulo assumiu rapidamente, e interpretabilidade mecanística — é trabalho em andamento.

Modelos de reasoning, em particular, são o tópico deste volume com maior probabilidade de parecer diferente daqui a um ano. O leitor que chegar a este capítulo doze meses após a publicação deve procurar uma versão atualizada no repositório, ou uma nota what changed descrevendo as alegações específicas que foram superadas. Se nenhuma das duas existir, o leitor está convidado a abrir uma issue ou, no espírito em que este livro está sendo escrito, a enviar um pull request.

References¶

src_005 — Nathan Lambert. RLHF Book (v8). April 2026. https://rlhfbook.com/
src_032 — DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025. https://arxiv.org/pdf/2501.12948
src_034 — Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290, 2023. https://arxiv.org/abs/2305.18290
src_035 — Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, and Daya Guo. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300, 2024. https://arxiv.org/pdf/2402.03300
src_036 — Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In Advances in Neural Information Processing Systems 35 (NeurIPS 2022), 2022. https://arxiv.org/pdf/2201.11903
src_044 — Lilian Weng. Why We Think. Blog post, May 2025. https://lilianweng.github.io/posts/2025-05-01-thinking/
src_056 — Rylan Schaeffer, Brando Miranda, and Sanmi Koyejo. Are Emergent Abilities of Large Language Models a Mirage? In Advances in Neural Information Processing Systems 36 (NeurIPS 2023, Outstanding Paper), 2023. https://arxiv.org/pdf/2304.15004
src_057 — An Yang and the Qwen Team. Qwen3 Technical Report. arXiv:2505.09388, 2025. https://arxiv.org/pdf/2505.09388
src_061 — Kimi Team (Moonshot AI). Kimi k1.5: Scaling Reinforcement Learning with LLMs. arXiv:2501.12599, 2025. https://arxiv.org/pdf/2501.12599
src_062 — Qiying Yu, Zheng Zhang, Ruofei Zhu, et al. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476, 2025 (ByteDance Seed + Tsinghua). https://arxiv.org/pdf/2503.14476
src_063 — Yu Yue, Yufeng Yuan, Qiying Yu, et al. VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks. arXiv:2504.05118, 2025 (ByteDance Seed). https://arxiv.org/pdf/2504.05118
src_064 — Qwen Team. QwQ-32B: Embracing the Power of Reinforcement Learning. Blog post, March 2025. https://qwenlm.github.io/blog/qwq-32b/
src_065 — Anthropic. Claude 3.7 Sonnet and Claude Code. Announcement, February 2025. https://www.anthropic.com/news/claude-3-7-sonnet