Scaling Laws¶
O pretraining de fronteira é uma decisão de tiro único sob um orçamento de compute fixo. Uma vez alocado o cluster e travado o pipeline de dados, a equipe se compromete com um tamanho de modelo \(N\) e uma contagem de tokens de treinamento \(D\) e executa o cronograma de ponta a ponta. Não há oportunidade de descobrir, depois do fato, que \(N\) deveria ter sido menor e \(D\) maior: os FLOPs já foram gastos. Qualquer pessoa que tenha acompanhado um treinamento de vários milhões de dólares conhece a consequência. A decisão precisa ser tomada com base em extrapolações em pequena escala — execuções que custam uma fração do modelo principal — que prevejam onde a curva de loss-versus-compute estará na escala alvo [src_028, src_030].
Scaling laws são a alegação empírica de que essa extrapolação funciona. A loss de cross-entropy de um modelo de linguagem Transformer tem uma dependência notavelmente suave sobre as três quantidades que uma equipe controla: contagem de parâmetros \(N\), contagem de tokens de treinamento \(D\) e compute \(C\). Plotada em coordenadas log-log, a dependência é aproximadamente linear ao longo de muitas ordens de magnitude. Essa linearidade é o motivo pelo qual equipes de fronteira conseguem ajustar uma curva em uma varredura de modelos pequenos e apostar um ano de tempo de cluster em sua extrapolação [src_027, src_028, src_030].
Este capítulo percorre como a área chegou ao seu entendimento atual dessas leis. A história tem três atos. Primeiro, a formulação original de Kaplan et al. (2020) [src_027], que tornou as scaling laws uma disciplina quantitativa, mas apontou as equipes em uma direção que se mostrou errada. Segundo, a correção Chinchilla de Hoffmann et al. (2022) [src_028], que corrigiu um bug metodológico e redefiniu a razão ótima \(N/D\). Terceiro, o regime pós-Chinchilla de over-training, no qual Llama-3 [src_030] e modelos de fronteira semelhantes treinam deliberadamente muito além do ótimo de compute do Chinchilla porque o custo dominante ao longo da vida útil é a inferência, não o treinamento. Cada ato aperta a pergunta sobre o que estamos de fato otimizando. Escala específica de MoE, escala de RL a partir de recompensa, e escala de test-time compute estão fora do escopo aqui; reaparecem na seção de fechamento como pontes para os capítulos subsequentes.
A premissa: power laws em \(N\), \(D\), \(C\)¶
Defina as três variáveis primárias de escala como Kaplan et al. as usaram [src_027]. \(N\) é o número de parâmetros não-embedding no Transformer (parâmetros de embedding escalam com o vocabulário, que o artigo original manteve aproximadamente fixo). \(D\) é o número de tokens de treinamento consumidos em uma única época (nenhum token é visto duas vezes). \(C\) é o compute total de treinamento, medido em operações de ponto flutuante.
🎯 Intuição
Uma power law parece uma reta em eixos log-log. Tome o logaritmo dos dois lados de \(L = A N^{-\alpha}\) e a relação vira \(\log L = -\alpha \log N + \text{const}\) — uma reta com inclinação \(-\alpha\). Toda alegação deste capítulo sobre expoentes é lida nesta reta.
A observação empírica é que a loss de cross-entropy de teste \(L\) obedece a uma power law em cada uma dessas quantidades, desde que as outras duas não sejam gargalos. Mantendo \(D\) efetivamente infinito e aumentando \(N\), a loss cai como \(N^{-\alpha_N}\). Mantendo \(N\) efetivamente infinito e aumentando \(D\), a loss cai como \(D^{-\alpha_D}\). Plotada em eixos log-log, cada curva é aproximadamente uma linha reta ao longo de mais de sete ordens de magnitude na variável subjacente [src_027].
Duas observações adicionais transformam isso em uma ferramenta prática para alocação de orçamento. Primeiro, o desempenho depende apenas fracamente da forma arquitetônica — profundidade, largura e contagem de heads — uma vez que \(N\) está fixo. As escolhas de forma que consomem a tarde de um arquiteto mal movem a curva de loss, enquanto dobrar \(N\) a move de modo previsível [src_027]. Segundo, o compute de treinamento é bem aproximado pela expressão enganosamente simples
onde o fator de 6 absorve o forward pass (aproximadamente \(2ND\) para as multiplicações de matrizes dominantes), o backward pass (aproximadamente \(4ND\), duas vezes o forward porque os gradientes fluem tanto pelas entradas quanto pelos pesos), com o multiplicador preciso dependendo de detalhes arquitetônicos como se a FFN usa uma forma de duas matrizes ou três matrizes com gating como SwiGLU [src_027, src_004].
🔗 Conexão
Forma arquitetural — profundidade, largura, número de heads — foi o tópico ativo de design do Capítulo 8. A perspectiva das leis de escala trata essas escolhas como aproximadamente fungíveis sob contagem de parâmetros fixa.
🎯 Intuição
"Iso-FLOP" significa "orçamento de compute fixo". Em eixos lineares, a curva \(ND = \text{const}\) é uma hipérbole; em eixos log-log, é uma reta de inclinação \(-1\). Toda a história Kaplan-vs-Chinchilla é geometricamente: qual ponto você escolhe sobre qual iso-FLOP.
O ponto é que o compute é aproximadamente bilinear em \(N\) e \(D\), o que confere ao problema de alocação de orçamento uma estrutura geométrica limpa: as curvas iso-FLOP são hipérboles \(ND = \text{const}\).
A formulação Kaplan e sua prescrição de alocação¶
Kaplan et al. (2020) ajustaram formas funcionais específicas aos seus dados. Com parâmetros não-embedding \(N\) na faixa de milhões a bilhões e tokens \(D\) na casa dos bilhões, eles reportaram
com dependência similar de power law sobre o compute mínimo \(C_\text{min}\) com expoente aproximadamente \(-0.050\) [src_027]. As constantes \(N_c\) e \(D_c\) definem as unidades; o que importa para a alocação é a razão dos expoentes.
A alegação central de alocação de Kaplan decorria mecanicamente desses expoentes. Sob um orçamento de compute fixo \(C \approx 6ND\), escolha \(N\) e \(D\) para minimizar a superfície de loss conjunta. O ajuste de Kaplan deu \(D \propto N^{\alpha_N / \alpha_D} \approx N^{0.74}\), equivalentemente os expoentes de compute
🤔 Pause e pense
Antes de seguir: dado o \(D \propto N^{0.74}\) de Kaplan, você prevê que dobrar o compute deveria principalmente aumentar o modelo, principalmente aumentar o dataset, ou dividir igualmente? Argumente a partir do expoente. (Não espie — fale a resposta em voz alta ou escreva.)
Em palavras: a maior parte de qualquer compute novo deve ir para tornar o modelo maior, com apenas uma contribuição sublinear indo para mais dados [src_027]. O slogan que escapou do artigo para a cultura dos praticantes foi de que o tamanho do modelo domina. Modelos como GPT-3 (175B), Jurassic-1 (178B), Gopher (280B) e Megatron-Turing NLG (530B) (a geração 2020-2021 de grandes LLMs densos) foram todos treinados em aproximadamente 300 bilhões de tokens — as contagens de parâmetros cresceram por fatores de três a seis enquanto \(D\) mal se moveu [src_028]. A recomendação de Kaplan, tomada ao pé da letra, justificava esse padrão.
A correção Chinchilla¶
Hoffmann et al. (2022) reexecutaram o experimento com densidade muito maior e chegaram à conclusão oposta [src_028]. Eles treinaram mais de 400 modelos de linguagem variando de 70 milhões a mais de 16 bilhões de parâmetros, em contagens de tokens de treinamento de 5 bilhões a mais de 500 bilhões, e analisaram a superfície de loss-versus-FLOPs usando três abordagens metodológicas independentes: uma varredura de curva iso-FLOP, um ajuste de envelopes de curvas de treinamento e uma forma paramétrica de loss. Todas as três abordagens concordaram [src_028].
A terceira abordagem, a loss paramétrica, vale a pena escrever explicitamente porque dá o resultado em forma fechada. Hoffmann et al. propuseram
🎯 Intuição
Leia os três termos aditivos antes dos símbolos chegarem. \(E\) é o piso de entropia — a menor loss que qualquer modelo poderia alcançar em princípio. \(A/N^{\alpha}\) é a penalidade por ter apenas finitos parâmetros; \(B/D^{\beta}\) é a penalidade por treinar sobre apenas finitos tokens. Ambas decaem segundo suas próprias power laws em direção a \(E\).
A constante \(E\) é a loss irredutível — a entropia da linguagem natural vista por um modelo idealizado de capacidade infinita e dados infinitos. Os dois termos de power law capturam, respectivamente, o custo da capacidade de parâmetros finita e o custo dos dados de treinamento finitos. Para encontrar a alocação ótima de compute, minimize \(L\) sujeita à restrição \(6ND = C\). Montando o Lagrangiano \(\mathcal{L}(N, D, \lambda) = E + A N^{-\alpha} + B D^{-\beta} - \lambda (6 N D - C)\) e tomando as derivadas parciais, a condição de primeira ordem em \(N\) é
e a condição análoga em \(D\) é \(-\beta B D^{-\beta - 1} - 6 \lambda N = 0\). Dividindo as duas condições para eliminar \(\lambda\) e substituindo a restrição de FLOPs \(C = 6ND\), obtém-se o ótimo em forma fechada
O ajuste de Hoffmann et al. deu \(\alpha \approx \beta \approx 0.34\). O ponto-chave é a simetria: quando \(\alpha\) e \(\beta\) são aproximadamente iguais, a alocação ótima é aproximadamente simétrica, e tanto \(N^*\) quanto \(D^*\) escalam como aproximadamente \(C^{0.5}\) [src_028]. Substituindo \(\alpha = \beta\) nos expoentes, obtém-se \(\beta/(\alpha+\beta) = \alpha/(\alpha+\beta) = 1/2\), de modo que \(N\) e \(D\) ótimos escalam como \(C^{1/2}\) — a previsão é "divida compute igualmente entre parâmetros e tokens" ou, sob a restrição \(C = 6ND\), "tokens por parâmetro é constante". Compare isso com o \(C^{0.73}\) de Kaplan para \(N\): o expoente corrigido é dramaticamente menor, e o expoente de \(D\) correspondente é correspondentemente maior.
🤔 Pause e pense
Substitua \(\alpha = \beta\) no resultado fechado \(N^*(C) \propto C^{\beta/(\alpha+\beta)}\) no papel. Que expoente de \(C\) governa \(N^*\)? O que isso implica para a razão \(D^*/N^*\) a um compute fixo? (Resolva antes de continuar.)
Uma abreviação dos praticantes emergiu da Tabela 3 do artigo Chinchilla, que projetou contagens ótimas de tokens para vários tamanhos de modelo. Um modelo de 1B parâmetros deveria ver aproximadamente 20.2B tokens; um modelo de 10B, aproximadamente 205B tokens; um modelo de 67B, aproximadamente 1.5T tokens [src_028]. Ao longo das linhas, a razão \(D^*/N^*\) permanece próxima de 20. O slogan que sobreviveu ao contato com a prática é "vinte tokens por parâmetro no ótimo Chinchilla" — uma heurística derivada, não uma equação declarada no artigo, mas útil para cálculos de guardanapo.
A validação empírica da predição do Chinchilla foi um confronto direto. O artigo treinou um modelo de 70B parâmetros em 1.4T tokens — mesmo orçamento de FLOPs que Gopher (280B params, 300B tokens), mas realocado entre \(N\) e \(D\) para cair perto do ótimo corrigido. O Chinchilla de 70B superou o Gopher de 280B em MMLU, BIG-bench, common-sense reasoning, compreensão de leitura e modelagem de linguagem [src_028]. A lição foi inequívoca: a área vinha treinando modelos que eram grandes demais e famintos por dados.
🔗 Conexão
A escolha de métrica de benchmark é, ela própria, uma suposição-chave — veja o Capítulo 13 sobre por que métricas agregadas como MMLU podem mascarar exatamente as capacidades que alegam medir.
💡 Resultado-chave
A um orçamento de FLOPs fixo, a alocação compute-ótima de Chinchilla supera a alocação de Kaplan nos principais benchmarks de linguagem.
🔄 Recapitulação
- Complete. A forma paramétrica da loss postula que a loss se decompõe como \(L(N, D) = \_\_\_ + \_\_\_ + \_\_\_\). Nomeie cada termo em palavras simples.
- Explique. Por que a simetria \(\alpha \approx \beta\) implica que compute deveria ser dividido igualmente entre parâmetros e tokens?
- Preveja. Um praticante tem \(C = 10^{22}\) FLOPs para gastar. Usando o atalho 20-tokens-por-parâmetro, que \(N\) e \(D\) aproximados deveria almejar?
- Compare. Qual foi a prescrição de alocação manchete de Kaplan, e como o bake-off do Chinchilla contra o Gopher mostrou que ela estava errada?
Por que Kaplan estava errado¶
O mecanismo apoia-se no cosine learning-rate decay schedule (cronograma de decaimento cosseno da taxa de aprendizagem) — uma agenda que sobe da estaca zero, depois decai a taxa de aprendizagem seguindo meia onda cosseno sobre um horizonte de treinamento escolhido, terminando próximo de zero. Vale a pena ser explícito sobre a razão metodológica pela qual a curva de Kaplan superpenderou \(N\), porque o modo de falha é instrutivo. Hoffmann et al. atribuem isso ao learning-rate schedule [src_028, src_004]. Kaplan manteve o cosine learning-rate decay schedule fixo entre todos os tamanhos de modelo — decaindo de um máximo a um mínimo pequeno em um horizonte fixado uma vez. Para comparar losses em escalas diferentes, Kaplan leu essas losses em pontos intermediários ao longo desse cronograma fixo.
O problema é que o cosine schedule está bem ajustado apenas quando seu horizonte de decaimento corresponde ao número real de tokens de treinamento. Um modelo pequeno executado em um cronograma fixo longo alcança seu ponto ótimo de parada de compute muito antes de o cronograma decair — sua loss medida reflete o treinamento antes de o cronograma ter decaído adequadamente, o que subestima quão bom o modelo pequeno poderia ter sido em seu próprio ponto ótimo de parada. Um modelo grande executado no mesmo cronograma fixo, avaliado em uma contagem de FLOPs comparável, mal começou a usar sua capacidade, mas está sendo medido em um ponto relativamente anterior ao longo de seu próprio cronograma.
Como o desajuste enviesa os expoentes ajustados¶
O efeito sistemático é fazer modelos pequenos parecerem piores do que são e modelos grandes parecerem melhores. A inclinação ajustada em \(N\) é íngreme demais; a inclinação ajustada em \(D\) é rasa demais. A conclusão de que \(N\) deveria crescer muito mais rápido que \(D\) decorre do viés [src_028].
O Chinchilla corrigiu isso ao ajustar o cosine schedule à contagem real de tokens de cada execução. Eles também estenderam seu conjunto de treinamento até 16B parâmetros, onde o conjunto de Kaplan era dominado por modelos sub-100M — um braço de alavanca mais amplo na regressão que expôs uma curvatura que o ajuste linear de Kaplan não conseguia ver [src_028].
Isto não é uma falha de intenção. Kaplan et al. fizeram trabalho empírico cuidadoso e reportaram sua metodologia honestamente. O bug é uma armadilha clássica de metodologia: um hiperparâmetro oculto (o LR schedule) interagiu com a varredura experimental (sobre \(N\)) de uma forma que enviesou o resultado principal. O custo para a área foi de aproximadamente dois anos de compute mal alocado: modelos como GPT-3, Gopher e MT-NLG foram todos construídos sob a prescrição Kaplan e estavam, pela medição do Chinchilla, substancialmente subtreinados. A lição é genérica. Qualquer estudo de escala ajusta uma curva de baixa dimensionalidade através de um espaço de configuração de alta dimensionalidade; se um hiperparâmetro não-varrido for definido erroneamente em relação à varredura, a curva pode mentir de forma convincente.
⚠️ Armadilha
Todo estudo de leis de escala ajusta uma curva de baixa dimensão sobre um espaço de configuração de alta dimensão. Um hiperparâmetro não varrido — um cronograma de taxa de aprendizagem, um tamanho de contexto, um tokenizador — pode silenciosamente enviesar os expoentes-manchete em qualquer direção.
🔄 Recapitulação
- Explique. Com suas palavras: por que o reuso de Kaplan de um único cronograma de taxa de aprendizagem entre tamanhos de modelo enviesou sistematicamente os expoentes ajustados em favor de crescer \(N\)?
- Preveja. Se um estudo hipotético de leis de escala tivesse usado um cronograma de taxa de aprendizagem sistematicamente curto-demais para modelos pequenos, em qual direção os expoentes-manchete teriam sido enviesados?
- Compare. O que Chinchilla mudou em seu protocolo experimental, em relação a Kaplan, que removeu esse viés?
Pós-Chinchilla: o regime de over-training¶
Lembre-se de que "compute-ótimo" como usado no §3 significa: minimiza a loss de pretraining a FLOPs de treinamento fixos — diga-se explicitamente, porque o §6 vai otimizar um objetivo diferente. Se o Chinchilla resolveu a questão da alocação ótima de compute, por que o Llama-3 8B treina em aproximadamente 15 trilhões de tokens — uma razão \(D/N\) de aproximadamente 1875 tokens por parâmetro, quase duas ordens de magnitude além do ótimo Chinchilla de 20 [src_030]?
O artigo do Llama-3 é explícito sobre o motivo. Modelos menores são treinados por muito mais tempo do que é compute-ótimo para que tenham desempenho melhor do que modelos compute-ótimos no mesmo orçamento de inferência [src_030]. A frase-chave é "mesmo orçamento de inferência". A otimização do Chinchilla minimizou a loss de pretraining em compute de treinamento fixo. Esse é um objetivo útil se o treinamento for o único custo. É o objetivo errado se o modelo for servido a muitos usuários por muito tempo após o treinamento, porque o compute dominante ao longo da vida útil é então a inferência, não o treinamento.
O argumento pode ser esboçado aritmeticamente. O compute de treinamento é aproximadamente \(C_\text{train} = 6ND\). O compute de inferência por token (somente o forward pass, sem backward) é aproximadamente \(C_\text{infer} \approx 2N\). Ao longo de uma vida útil de implantação de \(T_\text{lifetime}\) tokens servidos, o compute total de inferência é aproximadamente \(2N \cdot T_\text{lifetime}\). O custo total de compute implantado de um modelo é
🤔 Pause e pense
Olhe para \(C_\text{total} \approx 6ND + 2NT_\text{lifetime}\). Para que valor de \(T_\text{lifetime}\) (em unidades de \(D\)) os dois termos se equilibram? Preveja antes de ler a frase seguinte.
🎯 Intuição
O custo de treinamento é bilinear em \(N\) e \(D\) e é pago uma vez. O custo de inferência é linear apenas em \(N\) e é pago para sempre. Essa assimetria — bilinear-mas-finita contra linear-mas-perpétua — é o motivo pelo qual a fronteira moderna encolhe \(N\) e cresce \(D\) além do ótimo Chinchilla.
Os dois termos comparam-se diretamente: \(2N T_\text{lifetime} > 6ND\) é equivalente (dividindo ambos os lados por \(2N\)) a \(T_\text{lifetime} > 3D\), ou seja, a inferência domina o custo total assim que um modelo foi servido por mais do que três vezes os tokens em que foi treinado. Se \(T_\text{lifetime} \gg 3D\), o termo de inferência domina. Para um modelo implantado na escala de uma API de fronteira, o volume de tokens de inferência por dia é grande; ao longo de um ou dois anos de serviço, \(T_\text{lifetime}\) facilmente alcança os trilhões. O ponto de cruzamento, além do qual a inferência domina, é alcançado cedo em qualquer implantação para consumidores. O Ultra-Scale Playbook enquadra o mesmo trade-off pelo lado da engenharia, situando a escolha de over-training dentro do quadro mais amplo de custos de serviço contra o qual as equipes de fronteira otimizam [src_007].
Alocação sob custo dominado pela inferência¶
Uma vez que a inferência domina, o problema de otimização muda. Mantendo o custo total aproximadamente fixo e empurrando \(N\) para baixo enquanto se empurra \(D\) para cima, troca-se inferência cara e perpétua por treinamento barato e único. A troca é favorável enquanto a penalidade de loss por estar subtreinado-em-relação-ao-Chinchilla for menor do que a economia de inferência. Llama-3 8B e 70B ambos estão profundamente nesse regime; o flagship de 405B é treinado mais perto do compute-ótimo porque, com 405B parâmetros, o cálculo de custo de inferência é diferente — apenas um pequeno número de operadores pode arcar com servir um modelo denso de 405B, e esses operadores têm estruturas de custo diferentes [src_030].
💡 Resultado-chave
Quando o volume esperado de inferência domina o custo total de vida do modelo, a razão ótima tokens-por-parâmetro cresce em ordens de magnitude acima do ótimo-de-compute Chinchilla.
Isto não é uma refutação do Chinchilla. O Chinchilla resolve um problema de otimização limpo e bem-posto: minimizar a loss de pretraining em FLOPs de treinamento fixos. O regime pós-Chinchilla resolve um problema de otimização diferente, também limpo: minimizar o custo total de compute implantado em uma meta de qualidade fixa. Os dois problemas têm ótimos diferentes, e ambos são enquadramentos úteis. O erro seria confundi-los — por exemplo, ao alegar que o \(D/N \approx 1875\) do Llama-3 8B mostra que o Chinchilla está "errado". Não mostra. Mostra que decisões reais de engenharia otimizam um objetivo diferente daquele que o artigo Chinchilla considerou.
⚠️ Armadilha
A razão tokens-por-parâmetro alta da Llama-3 não é uma refutação de Chinchilla. As duas respondem a problemas de otimização diferentes: Chinchilla minimiza loss de treinamento sob compute de treinamento fixo; Llama-3 minimiza custo total sob tamanho de modelo implantado fixo.
Os próprios experimentos de scaling laws do Llama-3 ajustam \(N^*(C) = A \, C^\alpha\) com \(\alpha \approx 0.53\) e um pequeno prefator, e a equipe observou que as curvas iso-FLOP achatam-se perto de seu mínimo em compute grande, o que torna a divisão precisa \(N/D\) robusta a pequenas imprecisões [src_030]. Essa achatamento é em si um fato operacional útil: na escala de fronteira, o custo do over-training leve é pequeno.
Onde as scaling laws falham¶
As scaling laws conforme descritas acima são alegações sobre a loss de cross-entropy de pretraining. Elas valem ao longo de muitas ordens de magnitude em \(N\), \(D\) e \(C\) quando nenhuma das três está estrangulando as outras. Elas falham, ou pelo menos tornam-se não confiáveis, em várias situações específicas.
Primeiro, quando o conjunto de ajuste em pequena escala tem diferenças estruturais em relação ao regime alvo, a extrapolação falha. O modo de falha do LR-schedule fixo de Kaplan é o exemplo canônico: o conjunto de ajuste diferia metodologicamente do que o treinamento ótimo em larga escala parece, e a curva resultante estava errada [src_028, src_004].
Segundo, quando a loss sendo prevista é um benchmark downstream em vez de cross-entropy de pretraining, power laws simples não são garantidas. O Llama-3 aborda isso explicitamente ao adicionar um segundo estágio ao seu pipeline de escala: primeiro ajusta a loss de pretraining versus FLOPs em modelos pequenos, depois mapeia loss para acurácia de benchmark usando pontos de ancoragem do Llama-2 [src_030]. A construção em duas etapas é uma receita generalizável e um reconhecimento honesto de que métricas de capacidade não herdam, em geral, a suavidade de power law da cross-entropy.
Terceiro, quando a qualidade dos dados, em vez da quantidade, torna-se a restrição, a formulação pura \(N\)-\(D\) é incompleta. O próprio Chinchilla observa que escalas adicionais requerem dados em maior quantidade e melhor qualidade [src_028]; o maquinário de scaling laws de mistura de dados do Llama-3 é a resposta explícita — ajustar scaling laws a misturas de dados candidatas em modelos pequenos e iterar sobre a mistura [src_030].
Quarto, e mais contestado, scaling laws conforme ajustadas sobre a loss de pretraining são silenciosas sobre capacidades emergentes — a observação de que algumas habilidades downstream, como aritmética de múltiplos passos ou chain-of-thought reasoning, parecem ligar-se em escalas particulares em vez de melhorar suavemente. A literatura empírica está dividida sobre se esses saltos são fenômenos reais do mapa loss-para-capacidade ou artefatos da escolha de métrica, com trabalhos posteriores argumentando que métricas mais suaves frequentemente revelam melhoria subjacente suave onde métricas duras com limiares haviam sugerido um salto [src_004, src_046]. Este capítulo não julga a controvérsia; apenas observa que as scaling laws de pretraining são uma ferramenta para prever a loss de pretraining, e a tradução loss-para-capacidade é uma questão empírica separada sobre a qual pessoas informadas discordam.
O que as scaling laws ainda nos dizem¶
Em 2026, as scaling laws permanecem a disciplina que transforma o pretraining de fronteira de um salto de fé em uma previsão. Elas preveem a loss de pretraining na escala alvo de modo confiável, dado um conjunto de ajuste cuidadoso. Elas dizem a uma equipe onde uma mudança arquitetônica proposta moverá ou não moverá a curva — a maior parte das mudanças de forma de largura e profundidade não move, enquanto mudanças que afetam a informação efetiva por parâmetro (melhor tokenização, mixture-of-experts, melhores dados) movem [src_006, src_004]. Elas são a base sobre a qual uma configuração de flagship é escolhida.
O que elas não fazem é prever capacidades. Uma equipe que ajusta scaling laws no estilo Chinchilla obtém uma previsão confiante de cross-entropy em 70B; o que ela não obtém é uma previsão confiante da pontuação MMLU, da acurácia de geração de código, ou se o modelo fará chain-of-thought espontaneamente em problemas inéditos. A construção em duas etapas que o Llama-3 usa — prever loss, depois mapear loss para capacidade via modelos âncora — é a melhor prática atual para previsão de capacidade, mas o segundo estágio carrega risco empírico que o primeiro não carrega.
Dois eixos ortogonais de escala merecem destaque aqui como pontes para capítulos posteriores. Primeiro, mixture-of-experts (Capítulo 10) quebra a suposição de que todos os parâmetros são ativos por token, o que muda a relação entre \(N\), FLOPs e capacidade — parâmetros totais e parâmetros ativos tornam-se quantidades separadas, e a forma correta de scaling law para MoE parece diferente da forma densa considerada aqui. Segundo, compute em tempo de teste (Capítulo 13) opera em um ponto inteiramente diferente do ciclo de vida do modelo: em vez de alocar mais compute para pretraining, aloca-se em inferência via cadeias de reasoning mais longas. Ambos os eixos complicam o enquadramento simples "mais \(N\) ou mais \(D\)" dentro do qual este capítulo trabalhou. Nenhum o invalida.
🔗 Conexão
Dois eixos de escala complementares são retomados nos próximos capítulos: o eixo de parâmetros é tornado esparso no Capítulo 10 — Mixture of Experts, e o eixo de inferência é alongado no Capítulo 13 — Modelos de Raciocínio.
A disciplina que Kaplan fundou e o Chinchilla reparou permanece o ponto de partida certo para qualquer pensamento sobre escala. O erro, depois do Chinchilla, é tratar as leis como uma receita em vez de uma medição; a postura correta é reajustá-las, na configuração que a equipe realmente pretende lançar, antes de se comprometer com uma execução flagship.
💡 Resultado-chave
Leis de escala são uma medição de uma escolha de configuração sobre um corpus, não uma receita universal — refite antes de cada flagship run.
🔄 Recapitulação
- Compare. Qual é a diferença entre prever a loss de um modelo flagship a partir de uma lei de escala e prever sua capacidade em um benchmark downstream? Qual é confiável?
- Preveja. Uma equipe está prestes a comprometer \(10^{25}\) FLOPs num flagship run. Têm 4 runs de escala \(10^{22}\) FLOPs vindos de uma escada de tamanho menor. Devem confiar naqueles ajustes de escala-pequena sem trabalho adicional? O que devem fazer primeiro?
- Gere. Construa um exemplo (em suas próprias palavras, ~3 frases) de uma alegação de escala que seria uma medição (legítima) versus uma que seria uma receita (excesso).
Referências¶
- [src_004] Stanford CS336: Language Modeling from Scratch (Spring 2025). Tatsunori Hashimoto and Percy Liang. 2025. https://stanford-cs336.github.io/spring2025/
- [src_006] Hugging Face Smol Training Playbook (Oct 2025). Hugging Face. 2025. https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
- [src_007] Hugging Face Ultra-Scale Playbook (Feb 2025). Hugging Face. 2025. https://huggingface.co/spaces/nanotron/ultrascale-playbook
- [src_027] Scaling Laws for Neural Language Models. Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei. 2020. https://arxiv.org/pdf/2001.08361
- [src_028] Training Compute-Optimal Large Language Models. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. 2022. https://arxiv.org/pdf/2203.15556
- [src_030] The Llama 3 Herd of Models. Aaron Grattafiori et al. 2024. https://arxiv.org/pdf/2407.21783
- [src_046] Princeton COS 597R: Deep Dive into LLMs (Fall 2024). Sanjeev Arora and Danqi Chen. 2024. https://princeton-cos597r.github.io/