Skip to content
你现在在这里

当前阅读:语言模型基础

语言模型基础

这一模块先把 LLM 的本质、能力边界和上下文窗口讲清楚,为 Agent、Memory 和工具调用建立稳定前提。

语言模型基础

语言模型基础不是为了让你去训练模型,而是为了让你在做 Agent、RAG、工具调用和上下文设计时,知道自己到底在和什么样的系统打交道。

模块定位

很多工程问题表面上发生在 Agent 层,根源其实来自你对模型能力边界的误判。这个模块会先把这些误判拆开。

适合谁读

  • 已经在用大模型,但对“模型到底是什么”仍然模糊的人
  • 经常把模型当数据库、搜索引擎或推理机使用的人
  • 想理解上下文窗口、提示设计和输出不稳定性根源的人
  • 想真正理解 Transformer、Attention、QKV 这些底层术语的人

进入前建议

  • 已读完 序章
  • 愿意先接受“模型不是万能组件”这个前提

推荐顺序

  1. 先读 LLM 到底是什么,建立对模型本质和能力边界的第一层理解。
  2. 再读 上下文窗口,理解为什么上下文组织方式会直接影响系统表现。
  3. 然后进入 Transformer 专题导读,按章节系统学习模型内部机制。
  4. 如果你在第3章第一次真正卡住,可以继续读 第4章 Attention 的矩阵视角与代码推演,把公式、shape 和代码一口气打通。
  5. 接着读 第5章 Multi-Head Attention 与 Transformer Block,把单头 attention 拼成完整一层。
  6. 再读 第6章 Encoder、Decoder 与现代 LLM,把 block 放回模型家族演化里。
  7. 学到推理与工程部分时,继续读 第7章 训练、推理与现代 Transformer 演化,建立现代大模型系统视角。
  8. 如果你想把推理链路真正落到工程细节,可以继续读 第8章 KV Cache 与自回归推理实战,把 prefill、decode 和缓存增长机制串起来。
  9. 如果你想进一步理解长上下文为什么“能接收”不等于“能稳定利用”,继续读 第9章 RoPE 与长上下文外推实战,把位置编码、外推与上下文治理连起来。
  10. 如果你想继续理解现代推理系统为什么要在质量和吞吐之间做结构折中,再读 第10章 GQA MQA 与推理带宽权衡实战,把 KV 组数、带宽和长上下文成本真正串起来。

Transformer 专题章节

这一轮开始,Transformer 不再只是一篇总览文章,而是拆成一组连续章节,按“小册子”方式组织。建议按顺序阅读:

  1. 第1章 为什么是 Transformer
  2. 第2章 Token、Embedding 与位置编码
  3. 第3章 Self-Attention 与 QKV
  4. 第4章 Attention 的矩阵视角与代码推演
  5. 第5章 Multi-Head Attention 与 Transformer Block
  6. 第6章 Encoder、Decoder 与现代 LLM
  7. 第7章 训练、推理与现代 Transformer 演化
  8. 第8章 KV Cache 与自回归推理实战
  9. 第9章 RoPE 与长上下文外推实战
  10. 第10章 GQA MQA 与推理带宽权衡实战

本模块文章

文章类型简介
LLM 到底是什么原理建立对模型本质的第一层理解
上下文窗口核心理解窗口限制、上下文构成与工程启示
Transformer 专题导读总览进入 Transformer 分章学习路线
第1章 为什么是 Transformer原理理解它为何取代 RNN 成为主流
第2章 Token、Embedding 与位置编码原理理解文本如何变成可计算表示
第3章 Self-Attention 与 QKV核心理解注意力匹配与聚合机制
第4章 Attention 的矩阵视角与代码推演核心从 shape、softmax、mask 到最小代码真正看懂 attention
第5章 Multi-Head Attention 与 Transformer Block原理理解一层完整 Transformer 的分工
第6章 Encoder、Decoder 与现代 LLM原理理解 BERT、GPT 等模型家族差异
第7章 训练、推理与现代 Transformer 演化工程理解 KV Cache、RoPE、GQA、SwiGLU、MoE 等现实问题
第8章 KV Cache 与自回归推理实战工程把 prefill、decode、缓存增长与推理成本真正拆开讲清楚
第9章 RoPE 与长上下文外推实战原理把旋转位置编码、长上下文外推与可用性边界真正拆开讲清楚
第10章 GQA MQA 与推理带宽权衡实战工程把 MHA、MQA、GQA、KV Cache 和推理带宽之间的结构权衡真正讲清楚

学完后去哪里

继续进入 Agent 核心机制。当你对模型本质和上下文边界足够清楚,才更容易理解 Agent 为什么必须是“模型 + 上下文 + 工具 + 状态”的系统。

基于 MIT 协议开源