Apêndice A — Roteiro de Leitura¶
Estas são leituras mínimas viáveis para engajar com o material primário por trás de The Living Deep Learning Book. A lista é curada, não exaustiva: cada capítulo cita um punhado de artigos que, juntos, sustentam os argumentos centrais sem afogar o leitor em trabalho derivado. Os tempos são estimativas honestas para alguém confortável com os pré-requisitos assumidos pelo capítulo correspondente — leitores de primeira viagem devem contar com aproximadamente 2× mais tempo, e uma releitura cuidadosa (que a maioria destes artigos recompensa) costuma demorar ainda mais. Os artigos dentro de cada capítulo aparecem em ordem recomendada de leitura, não alfabética.
Capítulo 1 — The Transformer Block Revisited¶
- Vaswani et al., 2017 — Attention Is All You Need. https://arxiv.org/abs/1706.03762. Comece por aqui. A arquitetura envelheceu em alguns pontos, mas a notação, o diagrama de attention e o vocabulário pre-norm/post-norm aparecem em tudo que vem depois. ~1 h.
Capítulo 2 — Rotary Position Encoding¶
- Su et al., 2021 — RoFormer: Enhanced Transformer with Rotary Position Embedding. https://arxiv.org/abs/2104.09864. A derivação original do RoPE. Leia §3.4 com cuidado — o restante é aplicação. ~1,5 h.
- (Opcional) Press et al., 2022 — Train Short, Test Long: Attention with Linear Biases (ALiBi). Útil para situar o RoPE dentro da linhagem mais ampla de extensão de contexto; pesquisável no arXiv. ~45 min.
Capítulo 3 — Modern Normalization and Activations¶
- Zhang & Sennrich, 2019 — Root Mean Square Layer Normalization. https://arxiv.org/abs/1910.07467. Curto e direto; cerca de quatro páginas de conteúdo útil. ~30 min.
- Shazeer, 2020 — GLU Variants Improve Transformer. https://arxiv.org/abs/2002.05202. Leia apenas a tabela de variantes e a ablação; o restante é contabilidade. ~20 min.
Capítulo 4 — Efficient Attention at Scale¶
- Ainslie et al., 2023 — GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. https://arxiv.org/abs/2305.13245. ~30 min.
- Dao et al., 2022 — FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. https://arxiv.org/abs/2205.14135. Leia §3.1 com cuidado (tiling e recomputação); o restante pode ser folheado a menos que você se importe com os detalhes do kernel. ~1,5 h.
- Dao, 2023 — FlashAttention-2. https://arxiv.org/abs/2307.08691. Diferenças de engenharia em relação à v1: melhor partição de warps, menos FLOPs fora de matmul. ~45 min.
- Shah et al., 2024 — FlashAttention-3. https://arxiv.org/abs/2407.08608. Específico para Hopper (assincronia, baixa precisão). Pule se você não está em hardware classe H100. ~30 min.
Capítulo 5 — Vision Transformers¶
- Dosovitskiy et al., 2020 — An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale (ViT). https://arxiv.org/abs/2010.11929. O artigo do patch embedding. ~1 h.
- (Opcional) Liu et al., 2022 — Swin Transformer V2. https://arxiv.org/abs/2111.09883. Leia quando quiser entender por que os priors convolucionais continuam voltando. ~1 h.
Capítulo 6 — Self-Supervised Vision¶
- He et al., 2022 — Masked Autoencoders Are Scalable Vision Learners (MAE). https://arxiv.org/abs/2111.06377. Masked modeling em espaço de pixel; o encoder/decoder assimétrico é a decisão de projeto central. ~1 h.
- Oquab et al., 2023 — DINOv2: Learning Robust Visual Features without Supervision. https://arxiv.org/abs/2304.07193. Features por self-distillation em escala. Leia §3 com atenção. ~1,5 h.
- Zhai et al., 2023 — Sigmoid Loss for Language Image Pre-Training (SigLIP). https://arxiv.org/abs/2303.15343. A loss contrastiva sigmoide em aproximadamente metade do tamanho que se espera. ~30 min.
- Ravi et al., 2024 — SAM 2: Segment Anything in Images and Videos. https://arxiv.org/abs/2408.00714. Modelo de fundação para segmentação com memória entre frames. ~1 h.
Capítulo 7 — Encoder, Decoder, and Encoder-Decoder¶
- Devlin et al., 2018 — BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805. Histórico, mas o vocabulário é essencial. Leia somente §3. ~45 min.
- Liu et al., 2019 — RoBERTa: A Robustly Optimized BERT Pretraining Approach. https://arxiv.org/abs/1907.11692. Metade do artigo é o que o BERT errou no treinamento. ~30 min.
- Warner et al., 2024 — ModernBERT. https://arxiv.org/abs/2412.13663. Como um encoder se parece em 2024 — RoPE, FlashAttention, contexto longo. ~1 h.
Capítulo 8 — Inside a Modern Decoder-Only LLM¶
- Brown et al., 2020 — Language Models are Few-Shot Learners (GPT-3). https://arxiv.org/abs/2005.14165. O artigo do in-context learning; hoje em grande parte histórico, mas o enquadramento ainda molda como a área pensa. ~1,5 h.
- Touvron et al., 2023 — Llama 2: Open Foundation and Fine-Tuned Chat Models. https://arxiv.org/abs/2307.09288. A primeira receita aberta com qualidade de fronteira; os apêndices de dados e segurança valem a leitura. ~1 h.
- Meta, 2024 — The Llama 3 Herd of Models. https://arxiv.org/abs/2407.21783. Over-training, curadoria de dados, decisões de scaling. Longo, mas as seções de arquitetura recompensam leitura cuidadosa. ~3 h.
- DeepSeek-AI, 2024 — DeepSeek-V3 Technical Report. https://arxiv.org/abs/2412.19437. A receita MoE de fronteira atual — balanceamento sem auxiliary loss, MLA, treinamento em FP8. ~3 h.
Capítulo 9 — Scaling Laws¶
- Kaplan et al., 2020 — Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361. Leia com ceticismo; as conclusões estavam parcialmente erradas, mas a metodologia é canônica. ~1 h.
- Hoffmann et al., 2022 — Training Compute-Optimal Large Language Models (Chinchilla). https://arxiv.org/abs/2203.15556. A réplica. Atenção aos gráficos IsoFLOP e ao ponto em que o ajuste da função de loss faz o trabalho pesado. ~1,5 h.
- Meta, 2024 — Llama 3 Herd, §3 (citado acima). O regime pós-Chinchilla — over-training pela economia de inferência — é onde a área de fato vive hoje.
Capítulo 10 — Mixture of Experts¶
- Fedus et al., 2021 — Switch Transformer. https://arxiv.org/abs/2101.03961. O router viável mais simples. Vale a leitura mesmo que todo sistema moderno use top-k > 1. ~1,5 h.
- Jiang et al., 2024 — Mixtral of Experts. https://arxiv.org/abs/2401.04088. Roteamento top-2 em deployment de produção; curto e concreto. ~45 min.
- Cai et al., 2024 — A Survey on Mixture of Experts. https://arxiv.org/abs/2407.06204. Trate como referência taxonômica, não como leitura sequencial. ~2 h.
Capítulo 11 — From SFT to RLHF¶
- Ouyang et al., 2022 — Training Language Models to Follow Instructions with Human Feedback (InstructGPT). https://arxiv.org/abs/2203.02155. O artigo canônico de RLHF. Leia o apêndice de coleta de dados com o mesmo cuidado que o algoritmo. ~1,5 h.
Capítulo 12 — Direct Preference Optimization¶
- Rafailov et al., 2023 — Direct Preference Optimization: Your Language Model is Secretly a Reward Model. https://arxiv.org/abs/2305.18290. A derivação em §4 é o motivo de existir do artigo; o resto decorre dela. ~1,5 h.
Capítulo 13 — Reasoning Models and Verifiable Rewards¶
- Wei et al., 2022 — Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. https://arxiv.org/abs/2201.11903. Histórico, mas estabeleceu o vocabulário que a área ainda usa. ~30 min.
- Shao et al., 2024 — DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. https://arxiv.org/abs/2402.03300. O algoritmo GRPO, no artigo que o introduziu. ~1,5 h.
- DeepSeek-AI, 2025 — DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. https://arxiv.org/abs/2501.12948. Reasoning treinado por RL em escala de fronteira, com uma discussão de modos de falha incomumente franca. ~2 h.
Tempo total e um subconjunto de fim de semana¶
A lista primária completa acima soma cerca de 30–40 horas de leitura honesta, mais se você parar para derivar coisas no papel ou rodar código. Se você tem apenas um fim de semana e quer a espinha do livro em cinco artigos, leia nesta ordem:
- Vaswani et al., 2017 (Attention Is All You Need).
- Su et al., 2021 (RoPE).
- Dao et al., 2022 (FlashAttention).
- Hoffmann et al., 2022 (Chinchilla).
- Rafailov et al., 2023 (DPO).
Esse subconjunto entrega a arquitetura, a virada do position encoding, a revolução nos kernels de attention, o argumento de alocação de compute e a virada de alignment — o suficiente para ler um relatório técnico de 2025 sem precisar voltar e preencher lacunas.