Ir para o conteúdo

Apêndice B — Referências de Implementação

Um mapa curado de implementações de referência limpas para os tópicos cobertos em The Living Deep Learning Book. A intenção é dar um ou dois pontos de partida confiáveis por área — não um catálogo exaustivo. As entradas foram escolhidas pela clareza do código, manutenção ativa e valor pedagógico, não por números de benchmark. Para qualquer artigo dado, o código oficial liberado pelos autores costuma ser o lugar certo para começar; para qualquer arquitetura em uso de produção, o huggingface/transformers costuma ser a referência single-file mais limpa.

Pretraining ponta-a-ponta (escala pequena)

🔗 Conexão

Estes repositórios de referência apoiam o Capítulo 7, Encoder, Decoder, and Encoder-Decoder, o Capítulo 8, Inside a Modern Decoder-Only LLM, e o Capítulo 9, Scaling Laws.

  • karpathy/nanoGPThttps://github.com/karpathy/nanoGPT. Um GPT-2 do zero, com o modelo em cerca de 300 linhas de Python. O melhor lugar para ler um training loop de ponta a ponta sem abstrações pelo caminho.
  • karpathy/build-nanogpthttps://github.com/karpathy/build-nanogpt. Repositório companheiro da reprodução completa do Karpathy no YouTube; os commits mapeiam para etapas da aula, o que é útil quando você quer percorrer a construção passo a passo.
  • rasbt/LLMs-from-scratchhttps://github.com/rasbt/LLMs-from-scratch. Repositório do livro de Sebastian Raschka; notebooks Jupyter construídos incrementalmente. Mais lento e mais pedagógico que o nanoGPT.

Referências em qualidade de produção

🔗 Conexão

Referências em qualidade de produção para as famílias de modelos discutidas no Capítulo 8, Inside a Modern Decoder-Only LLM (Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT), com cobertura mais ampla do fluxo de pretraining no Capítulo 7, Encoder, Decoder, and Encoder-Decoder, e no Capítulo 9, Scaling Laws.

  • meta-llama/llamahttps://github.com/meta-llama/llama. Referência oficial de inferência do Llama ⅔. PyTorch curto e sem ofuscação — útil como o exemplo canônico de um bloco decoder-only moderno.
  • meta-llama/llama-recipeshttps://github.com/meta-llama/llama-recipes. Receitas oficiais de fine-tuning, avaliação e deployment; trate como uma biblioteca de padrões.
  • huggingface/transformershttps://github.com/huggingface/transformers. Para qualquer modelo específico, olhe src/transformers/models/<arch>/modeling_*.py. A referência single-file mais limpa para ViT, BERT, Llama, Mistral, Mixtral, Qwen, Gemma, ModernBERT e a maior parte do que este livro discute.
  • huggingface/nanotronhttps://github.com/huggingface/nanotron. Pretraining em escala com qualidade de produção; código companheiro do Ultra-Scale Playbook da Hugging Face. Leia quando o nanoGPT já não bastar.

Inferência e serving

🔗 Conexão

Estes engines implementam as técnicas de inferência apresentadas no Capítulo 4, Efficient Attention at Scale (KV-cache, PagedAttention, speculative decoding, continuous batching).

  • pytorch-labs/gpt-fasthttps://github.com/pytorch-labs/gpt-fast. Referência de torch.compile mais speculative decoding em poucas centenas de linhas. Excelente para entender o que o compilador de fato faz com o forward pass de um Transformer.
  • vllm-project/vllmhttps://github.com/vllm-project/vllm. Engine de inferência em produção; a implementação de referência canônica de PagedAttention e continuous batching.

FlashAttention e kernels

🔗 Conexão

FlashAttention é apresentada no Capítulo 4, Efficient Attention at Scale; estes kernels são a realização em produção do design de atenção IO-aware desse capítulo.

  • Dao-AILab/flash-attentionhttps://github.com/Dao-AILab/flash-attention. A implementação canônica de FlashAttention v1, v2 e v3. Os wrappers em Python são legíveis; os kernels CUDA não são, mas você não precisa deles para entender o design.
  • state-spaces/mambahttps://github.com/state-spaces/mamba. O modelo de sequência state-space de Tri Dao. Contexto útil se sua leitura sair de attention rumo às alternativas que quase a deslocaram.

Mixture of experts (MoE)

🔗 Conexão

Estas referências implementam os esquemas de routing e balanceamento cobertos no Capítulo 10, Mixture of Experts.

Alignment, RLHF, DPO e GRPO

🔗 Conexão

Estes trainers cobrem a progressão de alignment do Capítulo 11, From SFT to RLHF, do Capítulo 12, Direct Preference Optimization, e do Capítulo 13, Reasoning Models and Verifiable Rewards.

  • huggingface/trlhttps://github.com/huggingface/trl. Trainers de DPO, PPO, KTO, ORPO e GRPO em um só lugar. O ponto de partida mais pragmático para experimentos de alignment — o código é opinativo, mas consistente entre métodos.
  • allenai/open-instructhttps://github.com/allenai/open-instruct. Pipelines de alignment totalmente reproduzíveis do Allen AI, incluindo preparação de dados e avaliação. Útil quando você quer uma receita completa em vez de apenas código de trainer.
  • volcengine/verlhttps://github.com/volcengine/verl. GRPO e treinamento com verifiable rewards em escala; uma referência atual em qualidade de produção para o pipeline de reasoning pós-DeepSeek-R1.

Vision

🔗 Conexão

Implementações de referência para as arquiteturas de visão do Capítulo 5, Vision Transformers (ViT, Swin), e para as abordagens self-supervised do Capítulo 6, Self-Supervised Vision (DINOv2, MAE, SAM-2).

Ressalva sobre validade temporal

A qualidade de repositórios oscila com o tempo: mantenedores saem de cena, branches divergem dos artigos, e a implementação de referência de ontem pode se tornar artefato deprecated de hoje. A lista acima estava atualizada em abril de 2026. Antes de adotar qualquer um destes itens como alvo de estudo — e sobretudo antes de fazer fork para um projeto — verifique a data do último commit, a contagem de issues abertas, e se o README ainda reflete o estado do código. O autor deste livro recebe issues e pull requests adicionando, removendo ou corrigindo entradas.