ICL的锚点与信息流

2025-11-20

Lecture Notes: Information Aggregation & The Anchor Hypothesis in LLMs

论文标题:Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

1. 引言 (Introduction)

在大语言模型(LLM)的上下文学习(In-Context Learning, ICL)中,模型无需参数更新即可通过演示示例(Demonstrations)完成新任务。然而,其内部运作机制长期以来被视为“黑盒”。

本讲义基于 Wang et al. (2023) 的研究,从**信息流(Information Flow)**的视角解构 ICL。核心发现是:**标签词(Label Words)在计算过程中充当了锚点(Anchors)**的角色,负责信息的汇聚与分发。

2. 理论基础:定义可计算的“信息流” (Theoretical Foundation)

为了量化 token 之间的交互强度,我们不能仅依赖原始的注意力权重(Attention Weights),因为高权重不代表对最终输出有高贡献。本研究采用基于梯度的**显著性(Saliency)**方法。

2.1 基于雅可比梯度的显著性定义

ll 层的信息流矩阵 IlI_l 定义为注意力矩阵对损失函数的敏感度。利用泰勒展开的一阶近似(Taylor Expansion),我们得到:

Il=h=1HAh,lL(x)Ah,lI_l = \sum_{h=1}^{H} \left| A^{h,l} \odot \frac{\partial \mathcal{L}(x)}{\partial A^{h,l}} \right|

其中符号定义如下:

2.2 物理意义

矩阵元素 Il(i,j)I_l(i,j) 表示:从第 jj 个 token 到第 iitoken 的信息流动显著性

3. 核心假设:锚点机制 (The Anchor Hypothesis)

基于对 GPT-2 XL 和 GPT-J 的观察,论文提出了 ICL 的两阶段处理假设:

  1. 浅层汇聚 (H1\mathcal{H}_1: Aggregation in Shallow Layers) 在网络的浅层,演示示例中的文本信息(Text Part)向**标签词(Label Words)**汇聚。标签词将上下文语义压缩为向量表示。

  2. 深层分发 (H2\mathcal{H}_2: Extraction in Deep Layers) 在网络的深层,模型通过查询这些标签词(锚点)来提取信息,从而形成最终预测。

4. 量化指标设计 (Quantitative Metrics)

为了验证上述假设,我们定义三个核心指标来表征不同区域间的信息流强度。

设输入序列包含 CC 个演示示例,每个示例包含文本部分和标签词。

4.1 指标定义

(1) SwpS_{wp}: 文本到标签词的汇聚流 (Text-to-Label Aggregation)

衡量浅层网络中,标签词对前文内容的吸收程度。

Swp=1Cwp(pk,j)CwpIl(pk,j)S_{wp} = \frac{1}{|C_{wp}|} \sum_{(p_k, j) \in C_{wp}} I_l(p_k, j)

(2) SpqS_{pq}: 标签词到预测位的贡献流 (Label-to-Prediction Extraction)

衡量深层网络中,最终预测位置对标签词的查询强度。

Spq=1Cpq(q,pk)CpqIl(q,pk)S_{pq} = \frac{1}{|C_{pq}|} \sum_{(q, p_k) \in C_{pq}} I_l(q, p_k)

(3) SwwS_{ww}: 基线背景流 (Word-to-Word Baseline)

作为对照组,衡量普通 token 之间的交互。

Sww=1Cww(i,j)CwwIl(i,j)S_{ww} = \frac{1}{|C_{ww}|} \sum_{(i, j) \in C_{ww}} I_l(i, j)

4.2 观测结论

实验数据显示出清晰的层级分化:

5. 实验验证 (Experimental Validation)

为了证明这种相关性具有因果效应(Causality),论文设计了干预实验。

5.1 验证浅层汇聚:注意力隔离 (Attention Isolation)

5.2 验证深层分发:预测相关性 (Prediction Correlation)

6. 衍生应用 (Applications)

基于“锚点假说”,我们可以对 ICL 进行数学形式的优化。

6.1 锚点重加权 (Anchor Re-weighting)

既然深层预测依赖于 A(q,p)A(q, p),我们可以引入可学习参数 β\beta 来调整不同锚点的权重,类似逻辑回归。

修正公式:

A^(q,pi)exp(β0i)A(q,pi)\hat{A}(q, p_i) \propto \exp(\beta_0^i) \cdot A(q, p_i)

6.2 上下文压缩 (Context Compression)

既然信息被压缩进了锚点,推理时是否可以丢弃原始文本?

方法 (HiddenanchorHidden_{anchor}):

  1. 预计算演示示例。

  2. 仅保留每一层标签词(及格式符)的 Key-Value 状态。

  3. 推理时,新输入仅与这些缓存的 Anchor States 交互。

结果:

6.3 错误诊断 (Error Diagnosis)

ICL 的错误往往源于“锚点混淆”。

7. 总结与拓展思考 (Conclusion & Discussion)

7.1 核心结论

  1. 定义: 信息流并非均匀分布,而是高度稀疏且结构化的。

  2. 结构: ICL 遵循 Text \to Anchor \to Prediction 的两阶段漏斗结构。

  3. 本质: 标签词是自然语言 Prompt 中的语义压缩器(Semantic Compressor)

7.2 拓展:广义长上下文分析

虽然本研究聚焦于 ICL,但该指标体系 (Swp,SpqS_{wp}, S_{pq}) 可迁移至通用长文本分析:

主题: Anchor, 信息流动