词嵌入与自然语言处理

计算机如何理解“国王”和“王后”的关系？如何知道“开心”和“快乐”意思接近？传统的one-hot编码将每个词表示为一个向量，如“国王”是 [1, 0, 0, ..., 0]，“王后”是 [0, 1, 0, ..., 0]。这种表示无法捕捉语义——“国王”和“王后”的距离，与“国王”和“苹果”的距离一样远。

词嵌入（Word Embedding）改变了这一切。它将词映射到连续的向量空间，语义相近的词在空间中距离接近。更神奇的是，词嵌入能捕捉类比关系：“国王” - “男人” + “女人” ≈ “王后”。这种代数结构让机器能理解语言的细微差别。

词嵌入与自然语言处理

从One-Hot到嵌入

假设词汇表有10,000个词。One-hot编码将每个词表示为10,000维的稀疏向量，只有一个位置是1其余是0。

问题显而易见：

维度太高：10,000维，大部分是0，计算和存储浪费
无语义信息：任意两个词的距离都相等（欧氏距离是 $\sqrt{2}$ ）
泛化能力差：模型学到"猫很可爱"后，不知道"小猫很可爱"也对

词嵌入将词映射到低维稠密向量，如300维。这300个数字编码了词的各种属性：

词	性别	年龄	食物	...	皇室
国王	0.95	0.7	0.05	...	0.95
王后	-0.97	0.69	0.03	...	0.93
男人	0.93	0.5	0.1	...	0.1
女人	-0.95	0.48	0.12	...	0.09
苹果	0.0	0.05	0.95	...	0.01

注意“国王”和“王后”在性别维度相反，但在皇室维度都很高。这些维度不是人工设计的，而是从数据中学习的。

示例代码：

|
import numpy as np
 
# 构建简单的词汇表
vocab = ['猫', '狗', '苹果', '香蕉', '喜欢']
word_to_idx = {word: idx for idx, word in enumerate(vocab)}
vocab_size = len(vocab)
 
def one_hot_encode(word, word_to_idx, vocab_size):
    """将词转换为one-hot向量"""
    vector = np.zeros(vocab_size)
    if word

Word2Vec：学习词嵌入

Word2Vec有两种训练方式：Skip-gram和CBOW（Continuous Bag of Words）。

Skip-gram：给定中心词，预测上下文词

输入：“学习”（中心词）

输出：[“我”, “爱”, “深度”, “机器”]（上下文词）

数学形式：

给定词汇表大小 $V$ （如10,000），嵌入维度 $d$ （如300）：

中心词 $c$ 的one-hot编码 $o_c \in \mathbb{R}^V$
通过嵌入矩阵 $E \in \mathbb{R}^{d \times V}$ 得到嵌入：

这里 $\theta_t$ 是词 $t$ 的输出嵌入。训练通过最大化正确上下文词的概率。

负采样优化：

Softmax的分母需要对整个词汇表求和（V=10,000），计算量大。负采样简化为二分类：对于一个正样本（真实的上下文词），随机选K个负样本（不是上下文的词），训练模型区分正负样本。

|
import numpy as np
 
def sigmoid(x):
    """Sigmoid激活函数"""
    return 1 / (1 + np.exp(-x))
 
# Skip-gram with negative sampling
def skipgram_negative_sampling(center_word, context_word, negative_samples, embeddings):
    """
    center_word: 中心词的嵌入，shape (d,)
    context_word: 上下文词的嵌入，shape (d,)
    negative_samples: list of negative word embeddings
    """
    # 正样本：中心词和上下文词应该相似
    positive_score = sigmoid(np.dot(center_word, context_word))
    loss = -

GloVe：全局词向量

GloVe（Global Vectors）是另一种流行的词嵌入方法，由Stanford的Pennington等人2014年提出。与Word2Vec不同，GloVe直接利用词的共现统计。

核心思想：如果词 $i$ 和 $j$ 经常一起出现，它们的嵌入应该接近。目标函数：

J = \sum_{i,j=1}^V f(X_{ij}) (w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2

这里 $X_{ij}$ 是词 $i$ 和 $j$ 的共现次数， $f$ 是权重函数（常见词和罕见词贡献不同）。

GloVe预训练的词向量（在Wikipedia和Gigaword上训练）可以直接下载使用：

|
# 加载预训练的GloVe词向量
def load_glove(path='glove.6B.100d.txt'):
    """加载GloVe词向量"""
    embeddings = {}
    with open(path, 'r', encoding='utf-8') as f:
        for line in f:
            values = line.split()
            word = values[0]
            vector = np.array(values[1:],

词嵌入的类比特性

词嵌入最神奇的性质是能捕捉类比关系。

经典例子：“man” → “woman” 的关系类似于 “king” → ？

数学上，寻找词 $w$ 使得：

\arg\max_w \text{similarity}(e_w, e_{\text{king}} - e_{\text{man}} + e_{\text{woman}})

用余弦相似度：

\text{similarity}(u, v) = \frac{u^T v}{\|u\| \|v\|}

实际测试，答案是“queen”！

其他例子：

“Paris” - “France” + “Japan” ≈ “Tokyo”
“big” - “bigger” + “small” ≈ “smaller”

这种代数结构不是人工设计的，而是从大规模文本中自动学到的。它表明词嵌入捕捉了语言的深层结构。

|
def cosine_similarity(u, v):
    """计算余弦相似度"""
    return np.dot(u, v) / (np.linalg.norm(u) * np.linalg.norm(v))
 
def analogy(word_a, word_b, word_c, embeddings, top_k=1):
    """
    完成类比：word_a 对 word_b 的关系，类似于 word_c 对 ?
    例如：king - man + woman ≈ queen
    
    返回：最相似的k个词
    """
    if word_a not in embeddings or word_b not in embeddings or word_c not in embeddings:

实践应用：情感分类

词嵌入最常见的应用是作为NLP模型的输入层。

|
import torch
import torch.nn as nn
 
# 数据预处理：将文本转换为索引序列
def text_to_indices(text, word_to_idx, max_length=50):
    """
    将文本转换为词索引序列
    text: "这部电影很棒"
    返回: [123, 456, 789, 234, 0, 0, ...]  # 填充到max_length
    """
    words = text.split()
    indices = []
    for word in words:
        if word in word_to_idx:
            indices.append(word_to_idx[word])
        else:

使用预训练词嵌入相当于迁移学习——词的语义知识从大规模文本迁移到你的小任务。

词嵌入的偏见问题

词嵌入从真实文本学习，会继承人类的偏见。研究发现：

“doctor” - “man” + “woman” ≈ “nurse”（性别刻板印象）
“程序员”的嵌入向量在性别维度更接近“男性”

这在实际应用中可能导致歧视性结果（如简历筛选系统）。解决方案包括去偏算法、平衡训练数据等，但这仍是研究中的问题。

在最后一节中，我们将学习注意力机制和Seq2Seq模型——机器翻译、文本摘要等任务的核心技术。注意力机制是2017年Transformer革命的基础，理解它对理解现代NLP至关重要。