当我们在本课程开始学习Word2Vec时,那是2013年的技术——用简单的神经网络从大规模文本中学习词向量。那时的NLP还很“笨拙”:翻译系统会犯基础语法错误,问答系统只能处理简单问题,对话系统说出的话常常语无伦次。短短十年过去,我们见证了NLP领域翻天覆地的变化。
2023年,ChatGPT的出现让数亿人第一次体验到真正强大的语言AI——它能流畅对话、撰写文章、编写代码、解答复杂问题,许多情况下表现接近甚至超越人类。这背后是从Word2Vec到GPT-4的技术积累:词向量、RNN/LSTM、注意力机制、Transformer、预训练-微调、大规模语言模型、RLHF(基于人类反馈的强化学习)。

这个时期的标志性工作包括:
Word2Vec(2013) 开启了分布式词表示时代。第一次,我们可以用稠密向量捕获词的语义,king - man + woman ≈ queen这样的向量运算展示了词嵌入的魔力。
Seq2seq(2014) 证明了端到端神经翻译的可行性。Sutskever等人用LSTM编码器-解码器在WMT英法翻译上接近统计机器翻译系统,这在当时是重大突破。
注意力机制(2015) 解决了seq2seq的信息瓶颈。Bahdanau的注意力让解码器可以回头看源句子,大幅提升了长句翻译质量,也启发了后续的自注意力思想。
这三年奠定了现代NLP的基础技术栈。
Transformer(2017) 是分水岭事件。《Attention Is All You Need》这篇论文提出完全基于注意力的架构,不使用任何循环或卷积。Transformer的并行化能力和对长距离依赖的建模让它迅速主导了NLP。
ELMo(2018) 证明了上下文相关的词表示显著优于静态词向量。通过预训练双向语言模型,ELMo在多个任务上带来了大幅提升。
GPT(2018年6月) 展示了仅解码器Transformer的强大。通过生成式预训练+判别式微调,GPT在多个语言理解任务上达到SOTA。
BERT(2018年10月) 将预训练推向新高度。通过掩码语言模型和下一句预测,BERT学会了深层的双向语言理解,在11个NLP任务上刷新纪录。BERT的发布引发了预训练模型的"军备竞赛"。
2018年是NLP的“奇迹年”——预训练-微调范式被确立,Transformer成为标准架构,几乎所有任务的state-of-the-art都被刷新。
GPT-2(2019):1.5B参数,OpenAI发现了零样本学习能力——不微调也能完成多个任务。这提示了一个重要现象:模型能力随规模提升。
T5、BART、RoBERTa(2019-2020):各种预训练方法的探索,优化训练数据、目标函数、模型架构。
GPT-3(2020):175B参数,是一个质的飞跃。GPT-3展现了少样本学习(Few-shot Learning)——在prompt中给几个示例,模型就能完成新任务,无需任何梯度更新。这颠覆了机器学习的传统范式(需要大量标注数据训练)。
规模法则(Scaling Laws) 被提出:模型性能、参数量、数据量、计算量之间存在幂律关系。这启发了"scaling is all you need"的哲学——只要不断扩大模型,性能就会持续提升。
能力涌现(Emergent Abilities) 是最神秘的现象:当模型达到某个规模阈值(如60-100B参数),会突然获得之前没有的能力——算术推理、多步推理、代码生成。这些能力不是显式训练的,而是在规模扩展中"涌现"出来的。
ChatGPT(2022年11月) 将大语言模型带入大众视野。通过RLHF(Reinforcement Learning from Human Feedback),OpenAI让模型学会了遵循指令、拒绝不当请求、承认不确定性。这种“对齐”让LLM从研究工具变成实用产品。
GPT-5、Claude、Gemini(2023-2025) :多模态能力(理解图像)、更长上下文(处理整本书)、更强推理能力。
开源模型崛起(2023-2026):LLaMA、Mistral、Qwen等开源模型缩小了与闭源模型的差距,民主化了LLM技术。
传统机器学习的范式是:收集数据→标注→训练→测试。GPT-3引入了新范式:在上下文中学习(In-Context Learning)。
不需要更新参数,只需要在prompt中给出几个示例,模型就能完成新任务:
|翻译成英文: 我爱你 → I love you 他很高 → He is tall 我爱自然语言处理 → I love natural language processing
模型从这几个示例中"理解"了任务,然后正确翻译新句子。这种能力如何涌现的,至今没有完全理解。一种解释是:LLM在预训练时见过无数种任务的示例,学会了"元学习"——从少量示例中快速适应新任务的能力。
Wei等人(2022)发现,如果在prompt中加入"推理链",LLM的推理能力会显著提升:
|标准prompt: Q: 杰克有5个苹果,吃了2个,又买了3个,现在有几个? A: 6个 CoT prompt: Q: 杰克有5个苹果,吃了2个,又买了3个,现在有几个? A: 让我们一步步思考: 1. 杰克开始有5个苹果 2. 吃了2个,剩下5-2=3个 3. 又买了3个,总共3+3=6个 所以答案是6个。
CoT prompt让模型“慢下来”,逐步推理,而不是直接跳到答案。这在数学推理、逻辑推理、常识推理任务上带来了巨大提升。
更神奇的是,甚至可以用Let's think step by step这样的简单提示,让模型自己生成推理链(Zero-shot CoT)。
LLM的预训练目标是预测下一个词——这是一个简单的统计目标。但我们真正想要的是:模型helpful(有帮助)、honest(诚实)、harmless(无害)。
RLHF流程:
RLHF让ChatGPT能够拒绝不当请求、承认错误、提供有用建议。这种“对齐”是LLM从研究玩具变成实用工具的关键。

LLM最大的问题之一是幻觉(Hallucination)——自信地生成虚假信息。问GPT-3关于一个不存在的历史事件,它可能编造出详细的"事实"。
幻觉的根源是:LLM的训练目标是生成fluent text(流畅文本),而非truthful text(真实文本)。只要在统计上合理(符合训练数据的分布),模型就会生成,不管是真是假。
缓解幻觉需要:检索增强(grounding on facts)、不确定性表达(模型承认不知道)、人类监督(高风险应用需要事实核查)。但根本解决仍是开放问题。
Transformer的自注意力是复杂度——序列长度翻倍,计算量翻四倍。这限制了LLM处理长文本的能力。虽然GPT-4可以处理128K tokens,但计算成本巨大。
研究方向包括:稀疏注意力(只计算部分位置对)、线性注意力(通过核技巧降到)、检索增强(只attend相关片段)。但目前没有完美方案。
虽然LLM在某些推理任务上表现出色,它们的推理仍然脆弱。稍微改变问题措辞,答案可能完全改变。LLM更像是在模式匹配而非真正推理。
例如,GPT-3能解答If John is taller than Mary, and Mary is taller than Sue, who is tallest?,但改成虚构名字或复杂关系就可能失败。
真正的推理需要:逻辑一致性、反事实推理、因果理解、常识知识。这些仍是AI的frontier。
GPT-4、Gemini等模型已经可以理解图像。未来的AI将无缝处理文本、图像、音频、视频——就像人类的多模态感知。
语言的终极用途是指导行动。未来的AI可能将语言理解与机器人控制、虚拟环境交互结合,实现真正的具身智能。
LLM有数千亿参数,我们很难理解它"为什么"做出某个预测。未来需要更好的可解释性工具,让AI的决策过程透明、可审计。
训练GPT-3消耗的能源相当于一辆车行驶数十万公里。未来需要更高效的模型、算法、硬件,让AI技术可持续发展。
自然语言处理正处于激动人心的时代。从Word2Vec到GPT-5,我们见证了巨大进步。但仍有许多挑战:真正的语言理解、常识推理、长文本处理、可解释性、公平性、可持续性...
作为NLP学习者,我们既要掌握技术,也要思考责任。技术是中立的,但如何使用不是。让我们负责任地推动NLP造福人类。
“The best way to predict the future is to invent it.” — Alan Kay
恭喜你完成本课程!祝你在NLP领域能走的更远!