语言模型基础

语言模型基础不是为了让你去训练模型，而是为了让你在做 Agent、RAG、工具调用和上下文设计时，知道自己到底在和什么样的系统打交道。

模块定位

很多工程问题表面上发生在 Agent 层，根源其实来自你对模型能力边界的误判。这个模块会先把这些误判拆开。

这一轮开始，Transformer 不再只是一篇总览文章，而是拆成一组连续章节，按“小册子”方式组织。建议按顺序阅读：

文章	类型	简介
LLM 到底是什么	原理	建立对模型本质的第一层理解
上下文窗口	核心	理解窗口限制、上下文构成与工程启示
Transformer 专题导读	总览	进入 Transformer 分章学习路线
第1章为什么是 Transformer	原理	理解它为何取代 RNN 成为主流
第2章 Token、Embedding 与位置编码	原理	理解文本如何变成可计算表示
第3章 Self-Attention 与 QKV	核心	理解注意力匹配与聚合机制
第4章 Attention 的矩阵视角与代码推演	核心	从 shape、softmax、mask 到最小代码真正看懂 attention
第5章 Multi-Head Attention 与 Transformer Block	原理	理解一层完整 Transformer 的分工
第6章 Encoder、Decoder 与现代 LLM	原理	理解 BERT、GPT 等模型家族差异
第7章训练、推理与现代 Transformer 演化	工程	理解 KV Cache、RoPE、GQA、SwiGLU、MoE 等现实问题
第8章 KV Cache 与自回归推理实战	工程	把 prefill、decode、缓存增长与推理成本真正拆开讲清楚
第9章 RoPE 与长上下文外推实战	原理	把旋转位置编码、长上下文外推与可用性边界真正拆开讲清楚
第10章 GQA MQA 与推理带宽权衡实战	工程	把 MHA、MQA、GQA、KV Cache 和推理带宽之间的结构权衡真正讲清楚

继续进入 Agent 核心机制。当你对模型本质和上下文边界足够清楚，才更容易理解 Agent 为什么必须是“模型 + 上下文 + 工具 + 状态”的系统。