Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

向作者提问

NEW

简介

神经表征蕴含着丰富的几何结构；但这种结构是否会对行为产生因果性影响？为回答这一问题，我们沿着由不同几何结构所定义的激活空间路径实施干预，并测量其引发的行为轨迹。具体而言，我们检验：那些尊重激活空间固有几何结构的干预，是否能生成与模型自然行为高度接近的输出。在实践中，我们首先对表征拟合一个激活流形 $M_h$，同时对输出概率分布拟合一个行为流形 $M_y$；随后，我们通过干预手段检验二者之间的映射关系 $M_h \leftrightarrow M_y$：结果表明，沿 $M_h$ 进行引导（我们称之为“流形引导”）所产生的行为轨迹能够紧密贴合 $M_y$；而线性引导——即假设激活空间具有欧几里得几何结构——则会穿越流形之外的区域，从而导致不自然的输出。此外，在激活空间中优化干预策略以生成沿 $M_y$ 的行为路径时，所恢复出的激活轨迹恰好能准确刻画 $M_h$ 的曲率特征。我们在多种任务与模态中验证了表征几何与行为几何之间这种双向耦合关系：在语言模型中，我们采用具有环状与序列状几何结构的推理任务，以及具有更复杂图结构几何特征的上下文学习任务；在视频世界模型中，则采用一种几何结构对应于物理动力学规律的任务。总体而言，本研究证明，神经表征中的几何结构绝非偶然附带现象，而是实现基于内部状态干预之原理性控制的真正作用对象。这从根本上重构了“引导控制”的核心问题——其关键不再是如何找到“正确的方向”，而在于如何发现并利用“正确的几何结构”。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

验证神经表征空间的几何结构是否对行为具有因果性影响，即：表征空间的内在几何（而非简单欧氏假设）是否实质性地塑造模型输出行为，而非仅是描述性现象。这是一个较新的因果干预视角问题，超越了传统相关性分析或线性探针范式。
关键思路

提出‘流形引导’（manifold steering）——通过显式建模激活流形M_h和行为流形M_y，并在M_h上沿测地线或曲率一致路径进行干预，而非在欧氏空间中线性插值；发现M_h与M_y之间存在双向几何对齐：沿M_h干预自然诱导M_y轨迹，而优化以追踪M_y又能反推出符合M_h曲率的激活路径。核心新意在于将‘ steering ’问题从‘找方向’升维为‘找几何’。
其它亮点

实验覆盖多任务多模态：语言模型（逻辑推理中的循环/序列几何、ICL中的图结构几何）和视频世界模型（物理动力学对应的连续流形）；使用标准基准（如BBH、GSM8K、Ego4D动作预测）；未明确提及开源代码，但方法具强可复现性（依赖标准流形学习+梯度优化）；亮点还包括首次实证揭示‘几何一致性→行为自然性’的因果链，为可解释性与可控AI提供新基础；值得深入的方向包括：动态流形在线估计、跨层几何传递、以及面向安全对齐的曲率约束干预。
相关研究

1. 'Geometric Understanding of Deep Learning' (Bengio et al., 2021); 2. 'Neural Manifolds: A Geometric Perspective on Representation Learning' (Chung et al., NeurIPS 2022); 3. 'Steering Language Models with Linear Probes Is Not Enough' (Zhao et al., ACL 2023); 4. 'The Geometry of In-Context Learning' (Zhang et al., ICLR 2024); 5. 'World Models as Riemannian Manifolds' (Ha & Schmidhuber, arXiv 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问