MIT研究人员Wes Gurnee和Max Tegmark于10月3日提交在预印本arXiv上的论文称,他们通过分析三个空间数据集(世界、美国、纽约市的地点)和三个时间数据集(历史人物、艺术作品、新闻标题)在Llama-2系列模型中的学习表征,发现了世界模型的证据。
研究人员发现,LLMs学习了空间和时间的线性表征,并且这些表征在不同的尺度和实体类型(如城市和地标)之间是统一的。此外,作者还识别出了单个的“空间神经元”和“时间神经元”,它们可靠地编码了空间和时间坐标。论文称,现代LLMs获取了关于空间和时间这些基本维度的结构化知识,证明LLMs学习的不仅仅是表面统计规律,而是真正的世界模型。
LLMs中存在“时间和空间神经元”
在空间和时间数据集层面,研究人员在实验中构建了六个数据集,包含有对应空间或时间坐标的地点或事件的名称,分别涵盖了不同的空间或时间尺度,包括全球范围内的地点、美国国内的地点,以及纽约市范围内的地点;过去3000年内去世的历史人物;1950年以来发布的歌曲、电影和书籍;以及2010年至2020年发布的新闻标题。
图片来源:arXiv网站论文
对于每个数据集,研究人员纳入了多种类型的实体,例如城市等人口密集场所和湖泊等自然地标,以研究不同对象类型的统一表征情况。此外,研究人员还维护并丰富了相关的元数据,以便通过更详细的分类分析数据。
研究人员使用标准的探测技术,即在LLMs的内部激活上拟合一个简单的模型来预测与输入数据相关联的目标标签。具体来说,给定一个激活数据集A和一个目标Y,包含时间或二维经纬度坐标,作者拟合线性回归探测器得到一个线性预测器。在未提示过的数据上强大的预测性表明,LLMs中有可被线性解码出来的空间和时间信息。
作者首先探测了Llama-2-{7B, 13B, 70B}每一层对每个空间和时间数据集的预测性能。结果显示,在所有数据集上,空间和时间特征都可以被线性探测器恢复,而且这些表达随着模型规模增大而变得更准确,并且在达到稳定状态之前,模型前半层的表达质量会平稳提高。例如,他们发现,Llama-2-70B竟然能够描绘出真实世界的文字地图。
总结来说,MIT研究人员的研究显示:LLMs不仅仅是随机的模型――Llama-2已经是包含世界的详细模型,甚至包含独立的“时间神经元”和“空间神经元”!
论文作者之一、MIT研究大模型优化的博士生Wes Gurnee的论文一经arXiv和推特(现X)发布,便引发广泛关注。其推文概述了论文的内容,截至发稿,已经有近300万次阅读。
LLMs学习的空间和时间线性表征在不同实体类型间是统一的
此外,作者还研究了Llama-2的这些空间或时间表征是否对提示词敏感,即是否可以通过上下文来引发或抑制这些事实回忆。直觉上,对于任何实体词,自回归模型都有动机产生一个适合应对任何未来可能的上下文或问题的表达。
为了研究这一点,研究人员创建了新的激活数据集,其中在每个实体词前加上不同的提示。在所有情况下,作者都包括了一个“空”提示,只包含实体词(和一个序列开始符号)。然后,作者包括了一个询问模型回忆相关事实的提示,例如“的经纬度是多少”或“的发布于何时”。对于美国和纽约市数据集,作者还包括了询问这个地点在美国或纽约市哪里的提示,试图消除一些地点名称的歧义(例如City Hall)。
作为基准的模型,作者囊括了10个随机提示词作为提示。为了确定是否可以模糊主题,对于一些数据集,作者将所有实体名称全部大写。最后,对于标题数据集,作者尝试在最后一个词和在标题后面加上句号两种情况下进行测试。研究人员发现,显式地提示模型信息,或者给出消除歧义的提示,对Llama-2的输出结果几乎没有影响。然而,作者惊讶地发现随机干扰词和将实体大写会降低其输出内容的质量。唯一明显改善性能的修改是在标题后面加上句号进行探测,这表明句号被用来包含句子结束。
图片来源:arXiv
Wes Gurnee和Max Tegmark在论文的“讨论”章节指出,他们提供的证据表明,LLMs学习的空间和时间线性表征在不同实体类型之间是统一的,并且对提示词具有相当敏感的反应,而且存在对这些特征高度敏感的单个神经元。由此推论,在模型和数据量足够大的情况下,LLMs仅靠下一个标记的预测就足以学习世界的文字地图。
“我们的分析为今后的工作提出了许多有趣的问题。虽然我们表明可以线性地重建样本在空间或时间中的绝对位置,而且一些神经元使用了这些探测方向,但空间和时间表征的真正范围和结构仍不清楚。特别是,我们推测这种结构的最典型形式是离散化的分层网状结构,其中任何样本都被表示为其最近基点的线性组合。此外,LLMs可以也确实在使用这种坐标系,以线性探针(linear probe)的方式使用正确的基点方向线性组合来表示绝对位置。我们预计,随着LLMs规模的扩大,这一坐标系将通过更多的基点、更多的粒度以及更精确的实体到模型坐标的映射而得到增强。”研究人员写道。
Wes Gurnee和Max Tegmark的论文标题 图片来源:arXiv
作者还指出,在他们的分析以及更广泛的研究中,另一个干扰因素是他们的数据集中存在许多模型本身并不知道的“实体”,从而“污染”了他们的激活数据集。
“我们对这些了解空间和时间维度的世界模型是如何学习或使用的理解也仅仅触及了其表面。在初步的实验中,我们发现我们的模型在不依赖多步推理的情况下难以回答基本的时空关系问题,这使得因果干预分析变得复杂,但我们认为这是理解何时以及如何使用这些特征的关键步骤。”论文作者补充道。
封面图片来源:视觉中国(000681)-VCG111421248465