Apêndice B — Referências de Implementação¶

Um mapa curado de implementações de referência limpas para os tópicos cobertos em The Living Deep Learning Book. A intenção é dar um ou dois pontos de partida confiáveis por área — não um catálogo exaustivo. As entradas foram escolhidas pela clareza do código, manutenção ativa e valor pedagógico, não por números de benchmark. Para qualquer artigo dado, o código oficial liberado pelos autores costuma ser o lugar certo para começar; para qualquer arquitetura em uso de produção, o huggingface/transformers costuma ser a referência single-file mais limpa.

Pretraining ponta-a-ponta (escala pequena)¶

🔗 Conexão

Estes repositórios de referência apoiam o Capítulo 7, Encoder, Decoder, and Encoder-Decoder, o Capítulo 8, Inside a Modern Decoder-Only LLM, e o Capítulo 9, Scaling Laws.

karpathy/nanoGPT — https://github.com/karpathy/nanoGPT. Um GPT-2 do zero, com o modelo em cerca de 300 linhas de Python. O melhor lugar para ler um training loop de ponta a ponta sem abstrações pelo caminho.
karpathy/build-nanogpt — https://github.com/karpathy/build-nanogpt. Repositório companheiro da reprodução completa do Karpathy no YouTube; os commits mapeiam para etapas da aula, o que é útil quando você quer percorrer a construção passo a passo.
rasbt/LLMs-from-scratch — https://github.com/rasbt/LLMs-from-scratch. Repositório do livro de Sebastian Raschka; notebooks Jupyter construídos incrementalmente. Mais lento e mais pedagógico que o nanoGPT.

Referências em qualidade de produção¶

🔗 Conexão

Referências em qualidade de produção para as famílias de modelos discutidas no Capítulo 8, Inside a Modern Decoder-Only LLM (Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT), com cobertura mais ampla do fluxo de pretraining no Capítulo 7, Encoder, Decoder, and Encoder-Decoder, e no Capítulo 9, Scaling Laws.

meta-llama/llama — https://github.com/meta-llama/llama. Referência oficial de inferência do Llama ⅔. PyTorch curto e sem ofuscação — útil como o exemplo canônico de um bloco decoder-only moderno.
meta-llama/llama-recipes — https://github.com/meta-llama/llama-recipes. Receitas oficiais de fine-tuning, avaliação e deployment; trate como uma biblioteca de padrões.
huggingface/transformers — https://github.com/huggingface/transformers. Para qualquer modelo específico, olhe src/transformers/models/<arch>/modeling_*.py. A referência single-file mais limpa para ViT, BERT, Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT e a maior parte do que este livro discute.
huggingface/nanotron — https://github.com/huggingface/nanotron. Pretraining em escala com qualidade de produção; código companheiro do Ultra-Scale Playbook da Hugging Face. Leia quando o nanoGPT já não bastar.

Inferência e serving¶

🔗 Conexão

Estes engines implementam as técnicas de inferência apresentadas no Capítulo 4, Efficient Attention at Scale (KV-cache, PagedAttention, speculative decoding, continuous batching).

pytorch-labs/gpt-fast — https://github.com/pytorch-labs/gpt-fast. Referência de torch.compile mais speculative decoding em poucas centenas de linhas. Excelente para entender o que o compilador de fato faz com o forward pass de um Transformer.
vllm-project/vllm — https://github.com/vllm-project/vllm. Engine de inferência em produção; a implementação de referência canônica de PagedAttention e continuous batching.

FlashAttention e kernels¶

🔗 Conexão

FlashAttention é apresentada no Capítulo 4, Efficient Attention at Scale; estes kernels são a realização em produção do design de atenção IO-aware desse capítulo.

Dao-AILab/flash-attention — https://github.com/Dao-AILab/flash-attention. A implementação canônica de FlashAttention v1, v2 e v3. Os wrappers em Python são legíveis; os kernels CUDA não são, mas você não precisa deles para entender o design.
state-spaces/mamba — https://github.com/state-spaces/mamba. O modelo de sequência state-space de Tri Dao. Contexto útil se sua leitura sair de attention rumo às alternativas que quase a deslocaram.

Mixture of experts (MoE)¶

🔗 Conexão

Estas referências implementam os esquemas de routing e balanceamento cobertos no Capítulo 10, Mixture of Experts.

mistralai/mistral-inference — https://github.com/mistralai/mistral-inference. Referência de routing do Mixtral. Compacto e fácil de ler ao lado do artigo.
deepseek-ai/DeepSeek-V3 — https://github.com/deepseek-ai/DeepSeek-V3. Balanceamento de experts sem auxiliary loss em código de produção; o esquema de routing descrito no relatório técnico.
microsoft/tutel — https://github.com/microsoft/tutel. Primitivos MoE em qualidade de pesquisa; útil quando você quer trocar esquemas de routing ou balanceamento sem reescrever a stack inteira.

Alignment, RLHF, DPO e GRPO¶

🔗 Conexão

Estes trainers cobrem a progressão de alignment do Capítulo 11, From SFT to RLHF, do Capítulo 12, Direct Preference Optimization, e do Capítulo 13, Reasoning Models and Verifiable Rewards.

huggingface/trl — https://github.com/huggingface/trl. Trainers de DPO, PPO, KTO, ORPO e GRPO em um só lugar. O ponto de partida mais pragmático para experimentos de alignment — o código é opinativo, mas consistente entre métodos.
allenai/open-instruct — https://github.com/allenai/open-instruct. Pipelines de alignment totalmente reproduzíveis do Allen AI, incluindo preparação de dados e avaliação. Útil quando você quer uma receita completa em vez de apenas código de trainer.
volcengine/verl — https://github.com/volcengine/verl. GRPO e treinamento com verifiable rewards em escala; uma referência atual em qualidade de produção para o pipeline de reasoning pós-DeepSeek-R1.

Vision¶

🔗 Conexão

Implementações de referência para as arquiteturas de visão do Capítulo 5, Vision Transformers (ViT, Swin), e para as abordagens self-supervised do Capítulo 6, Self-Supervised Vision (DINOv2, MAE, SAM-2).

facebookresearch/dinov2 — https://github.com/facebookresearch/dinov2. Código oficial do DINOv2, incluindo o training loop de self-distillation e utilitários para extração de features.
facebookresearch/mae — https://github.com/facebookresearch/mae. MAE oficial; repositório pequeno, fácil de ler do início ao fim.
facebookresearch/sam2 — https://github.com/facebookresearch/sam2. SAM-2 oficial, com o módulo de memória para vídeo.
microsoft/Swin-Transformer — https://github.com/microsoft/Swin-Transformer. Swin v1 e v2 oficiais; a fonte single-source mais limpa para o padrão de shifted-window attention.

Ressalva sobre validade temporal¶

A qualidade de repositórios oscila com o tempo: mantenedores saem de cena, branches divergem dos artigos, e a implementação de referência de ontem pode se tornar artefato deprecated de hoje. A lista acima estava atualizada em abril de 2026. Antes de adotar qualquer um destes itens como alvo de estudo — e sobretudo antes de fazer fork para um projeto — verifique a data do último commit, a contagem de issues abertas, e se o README ainda reflete o estado do código. O autor deste livro recebe issues e pull requests adicionando, removendo ou corrigindo entradas.