Apêndice B — Referências de Implementação¶
Um mapa curado de implementações de referência limpas para os tópicos cobertos em The Living Deep Learning Book. A intenção é dar um ou dois pontos de partida confiáveis por área — não um catálogo exaustivo. As entradas foram escolhidas pela clareza do código, manutenção ativa e valor pedagógico, não por números de benchmark. Para qualquer artigo dado, o código oficial liberado pelos autores costuma ser o lugar certo para começar; para qualquer arquitetura em uso de produção, o huggingface/transformers costuma ser a referência single-file mais limpa.
Pretraining ponta-a-ponta (escala pequena)¶
🔗 Conexão
Estes repositórios de referência apoiam o Capítulo 7, Encoder, Decoder, and Encoder-Decoder, o Capítulo 8, Inside a Modern Decoder-Only LLM, e o Capítulo 9, Scaling Laws.
- karpathy/nanoGPT — https://github.com/karpathy/nanoGPT. Um GPT-2 do zero, com o modelo em cerca de 300 linhas de Python. O melhor lugar para ler um training loop de ponta a ponta sem abstrações pelo caminho.
- karpathy/build-nanogpt — https://github.com/karpathy/build-nanogpt. Repositório companheiro da reprodução completa do Karpathy no YouTube; os commits mapeiam para etapas da aula, o que é útil quando você quer percorrer a construção passo a passo.
- rasbt/LLMs-from-scratch — https://github.com/rasbt/LLMs-from-scratch. Repositório do livro de Sebastian Raschka; notebooks Jupyter construídos incrementalmente. Mais lento e mais pedagógico que o nanoGPT.
Referências em qualidade de produção¶
🔗 Conexão
Referências em qualidade de produção para as famílias de modelos discutidas no Capítulo 8, Inside a Modern Decoder-Only LLM (Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT), com cobertura mais ampla do fluxo de pretraining no Capítulo 7, Encoder, Decoder, and Encoder-Decoder, e no Capítulo 9, Scaling Laws.
- meta-llama/llama — https://github.com/meta-llama/llama. Referência oficial de inferência do Llama ⅔. PyTorch curto e sem ofuscação — útil como o exemplo canônico de um bloco decoder-only moderno.
- meta-llama/llama-recipes — https://github.com/meta-llama/llama-recipes. Receitas oficiais de fine-tuning, avaliação e deployment; trate como uma biblioteca de padrões.
- huggingface/transformers — https://github.com/huggingface/transformers. Para qualquer modelo específico, olhe
src/transformers/models/<arch>/modeling_*.py. A referência single-file mais limpa para ViT, BERT, Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT e a maior parte do que este livro discute. - huggingface/nanotron — https://github.com/huggingface/nanotron. Pretraining em escala com qualidade de produção; código companheiro do Ultra-Scale Playbook da Hugging Face. Leia quando o nanoGPT já não bastar.
Inferência e serving¶
🔗 Conexão
Estes engines implementam as técnicas de inferência apresentadas no Capítulo 4, Efficient Attention at Scale (KV-cache, PagedAttention, speculative decoding, continuous batching).
- pytorch-labs/gpt-fast — https://github.com/pytorch-labs/gpt-fast. Referência de
torch.compilemais speculative decoding em poucas centenas de linhas. Excelente para entender o que o compilador de fato faz com o forward pass de um Transformer. - vllm-project/vllm — https://github.com/vllm-project/vllm. Engine de inferência em produção; a implementação de referência canônica de PagedAttention e continuous batching.
FlashAttention e kernels¶
🔗 Conexão
FlashAttention é apresentada no Capítulo 4, Efficient Attention at Scale; estes kernels são a realização em produção do design de atenção IO-aware desse capítulo.
- Dao-AILab/flash-attention — https://github.com/Dao-AILab/flash-attention. A implementação canônica de FlashAttention v1, v2 e v3. Os wrappers em Python são legíveis; os kernels CUDA não são, mas você não precisa deles para entender o design.
- state-spaces/mamba — https://github.com/state-spaces/mamba. O modelo de sequência state-space de Tri Dao. Contexto útil se sua leitura sair de attention rumo às alternativas que quase a deslocaram.
Mixture of experts (MoE)¶
🔗 Conexão
Estas referências implementam os esquemas de routing e balanceamento cobertos no Capítulo 10, Mixture of Experts.
- mistralai/mistral-inference — https://github.com/mistralai/mistral-inference. Referência de routing do Mixtral. Compacto e fácil de ler ao lado do artigo.
- deepseek-ai/DeepSeek-V3 — https://github.com/deepseek-ai/DeepSeek-V3. Balanceamento de experts sem auxiliary loss em código de produção; o esquema de routing descrito no relatório técnico.
- microsoft/tutel — https://github.com/microsoft/tutel. Primitivos MoE em qualidade de pesquisa; útil quando você quer trocar esquemas de routing ou balanceamento sem reescrever a stack inteira.
Alignment, RLHF, DPO e GRPO¶
🔗 Conexão
Estes trainers cobrem a progressão de alignment do Capítulo 11, From SFT to RLHF, do Capítulo 12, Direct Preference Optimization, e do Capítulo 13, Reasoning Models and Verifiable Rewards.
- huggingface/trl — https://github.com/huggingface/trl. Trainers de DPO, PPO, KTO, ORPO e GRPO em um só lugar. O ponto de partida mais pragmático para experimentos de alignment — o código é opinativo, mas consistente entre métodos.
- allenai/open-instruct — https://github.com/allenai/open-instruct. Pipelines de alignment totalmente reproduzíveis do Allen AI, incluindo preparação de dados e avaliação. Útil quando você quer uma receita completa em vez de apenas código de trainer.
- volcengine/verl — https://github.com/volcengine/verl. GRPO e treinamento com verifiable rewards em escala; uma referência atual em qualidade de produção para o pipeline de reasoning pós-DeepSeek-R1.
Vision¶
🔗 Conexão
Implementações de referência para as arquiteturas de visão do Capítulo 5, Vision Transformers (ViT, Swin), e para as abordagens self-supervised do Capítulo 6, Self-Supervised Vision (DINOv2, MAE, SAM-2).
- facebookresearch/dinov2 — https://github.com/facebookresearch/dinov2. Código oficial do DINOv2, incluindo o training loop de self-distillation e utilitários para extração de features.
- facebookresearch/mae — https://github.com/facebookresearch/mae. MAE oficial; repositório pequeno, fácil de ler do início ao fim.
- facebookresearch/sam2 — https://github.com/facebookresearch/sam2. SAM-2 oficial, com o módulo de memória para vídeo.
- microsoft/Swin-Transformer — https://github.com/microsoft/Swin-Transformer. Swin v1 e v2 oficiais; a fonte single-source mais limpa para o padrão de shifted-window attention.
Ressalva sobre validade temporal¶
A qualidade de repositórios oscila com o tempo: mantenedores saem de cena, branches divergem dos artigos, e a implementação de referência de ontem pode se tornar artefato deprecated de hoje. A lista acima estava atualizada em abril de 2026. Antes de adotar qualquer um destes itens como alvo de estudo — e sobretudo antes de fazer fork para um projeto — verifique a data do último commit, a contagem de issues abertas, e se o README ainda reflete o estado do código. O autor deste livro recebe issues e pull requests adicionando, removendo ou corrigindo entradas.