每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
2026年05月07日
我们提出了“AI协同数学家”(AI co-mathematician)——一个专为数学家设计的交互式工作台,使其能够灵活调用AI智能体,开展开放性前沿研究。“AI协同数学家”针对数学研究中固有的探索性与迭代性特点进行了专门优化,可为从创意萌发、文献检索、计算实验、定理证明到理论构建等全流程提供全方位支持。该系统构建了一个异步、有状态的工作空间,不仅能妥善管理不确定性、持续厘清用户真实意图、追踪被证伪的假设,还能直接生成原生的数学成果(如定义、命题、证明、代码等),从而高度复现人类数学家协作研究的实际工作范式。在初步测试中,“AI协同数学家”已成功协助研究人员攻克若干开放性难题,发现全新的研究方向,并挖掘出此前被学界忽视的重要文献线索。该系统不仅展现出一种高度交互式的AI辅助数学发现新范式,更在多项高难度数学问题求解基准测试中刷新了当前最佳性能:例如,在全新发布的前沿数学评测集FrontierMath Tier 4上取得48%的得分,创下所有参评AI系统中的最高纪录。
943
热度
许愿开讲
PDF
解读
Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data
2026年04月27日
计算机辅助设计(CAD)模型由其建模历史所定义:即一段参数化“配方”,用以编码设计意图。然而,当前主流的大规模3D数据集大多仅包含边界表示(B-Rep)或网格模型,从而完全丢失了这一关键的程序化信息。为应对该类数据的严重匮乏,我们提出“零起点生成CAD”(Zero-to-CAD)——一种可扩展的框架,用于合成可执行的CAD建模操作序列。我们将合成任务建模为一种具身智能体(agentic)搜索问题:将大语言模型(LLM)嵌入至具备反馈机制的CAD运行环境中,系统由此迭代式地生成代码、执行操作并验证结果;同时借助工具调用与文档检索能力,确保所生成几何体的正确性及建模操作类型的多样性。这种具身智能体方法成功合成了约一百万条可执行、可读、可编辑的CAD建模序列,涵盖远超传统“草图绘制—拉伸”流程的丰富操作语义。此外,我们还发布了一个精选子集,包含10万件高质量模型,这些模型经严格筛选,具有高度的几何多样性。为验证该数据集的实际效用,我们基于合成数据对一个视觉-语言模型进行微调,使其能够从多视角图像中重建出可编辑的CAD程序;实验结果显著优于包括GPT-5.2在内的多个强基线方法,并在无需任何真实建模历史数据的前提下,有效实现了CAD序列生成能力的冷启动。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟,为下一代CAD人工智能提供了至关重要的基础资源。
844
热度
许愿开讲
PDF
解读
A Theory of Generalization in Deep Learning
2026年05月02日
我们提出了一种深度学习中泛化能力的非渐近性理论,其核心在于:经验神经正切核(empirical neural tangent kernel)将模型输出空间划分为不同方向。在对应于“信号”的方向上,误差迅速衰减;而在与之正交的、占据绝大部分维度的“噪声”方向上,该核的特征值趋近于零,从而将残差误差困于一个在测试阶段不可见的“储库”之中。在信号通道内,小批量随机梯度下降(minibatch SGD)确保总体层面的相干信号通过快速的线性漂移持续累积,而个体化的记忆行为则被抑制为一种缓慢的扩散型随机游走。我们严格证明:即便神经正切核在算子范数意义下发生量级为 $\mathcal{O}(1)$ 的演化(即完全处于特征学习 regime),泛化能力依然得以保持。该理论自然地统一解释了深度学习理论中一系列看似迥异的现象,例如良性的过拟合(benign overfitting)、双下降(double descent)、隐式偏差(implicit bias)以及“顿悟”(grokking)。最后,我们仅需单次训练过程(无需任何验证数据),即可为任意网络架构、损失函数及优化器推导出一个精确刻画总体风险(population risk)的目标函数;并进一步证明:该目标函数所度量的,正是信号通道中残留的噪声成分。在实际应用中,该目标函数等价于在 Adam 优化器之上施加一个信噪比(SNR)预调节器(preconditioner),仅需额外引入一个状态向量,不增加任何计算开销;它可将“顿悟”过程加速达 5 倍,在物理信息神经网络(PINNs)与隐式神经表示(implicit neural representations)中有效抑制记忆行为,并在偏好标签含噪声的直接偏好优化(DPO)微调任务中提升性能——同时使其输出策略与参考策略的距离保持在原有水平的三分之一以内。
450
热度
许愿开讲
PDF
解读
Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior
2026年05月06日
神经表征蕴含着丰富的几何结构;但这种结构是否会对行为产生因果性影响?为回答这一问题,我们沿着由不同几何结构所定义的激活空间路径实施干预,并测量其引发的行为轨迹。具体而言,我们检验:那些尊重激活空间固有几何结构的干预,是否能生成与模型自然行为高度接近的输出。在实践中,我们首先对表征拟合一个激活流形 $M_h$,同时对输出概率分布拟合一个行为流形 $M_y$;随后,我们通过干预手段检验二者之间的映射关系 $M_h \leftrightarrow M_y$:结果表明,沿 $M_h$ 进行引导(我们称之为“流形引导”)所产生的行为轨迹能够紧密贴合 $M_y$;而线性引导——即假设激活空间具有欧几里得几何结构——则会穿越流形之外的区域,从而导致不自然的输出。此外,在激活空间中优化干预策略以生成沿 $M_y$ 的行为路径时,所恢复出的激活轨迹恰好能准确刻画 $M_h$ 的曲率特征。我们在多种任务与模态中验证了表征几何与行为几何之间这种双向耦合关系:在语言模型中,我们采用具有环状与序列状几何结构的推理任务,以及具有更复杂图结构几何特征的上下文学习任务;在视频世界模型中,则采用一种几何结构对应于物理动力学规律的任务。总体而言,本研究证明,神经表征中的几何结构绝非偶然附带现象,而是实现基于内部状态干预之原理性控制的真正作用对象。这从根本上重构了“引导控制”的核心问题——其关键不再是如何找到“正确的方向”,而在于如何发现并利用“正确的几何结构”。
373
热度
许愿开讲
PDF
解读
Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval
2026年05月07日
检索增强型智能体正日益成为访问大型组织知识库的主要交互界面;然而,目前绝大多数此类智能体仍将检索过程视为一个“黑箱”:它们先发出试探性查询,检查返回的文本片段,再据此反复调整查询语句,直至获取有用证据为止。这种做法更类似于新手在面对一个陌生数据库时的摸索式搜索,而非专家凭借对专业术语和潜在证据分布的强先验知识所开展的高效导航。其结果是造成了不必要的多轮检索、响应延迟增加,以及查全率低下。 我们提出一种名为“超级智能检索智能体”(SuperIntelligent Retrieval Agent,简称 SIRA)的新方法,将检索中的“超级智能”定义为:能够将原本需多轮试探的探索式搜索,压缩为一次面向整个语料库、具备强判别能力的单次检索操作。SIRA 并非简单地询问“哪些词与当前查询相关”,而是进一步追问:“哪些词最有可能将目标证据从语料库中大量干扰项(corpus-level confusers)中区分出来?” 在语料库端,大语言模型(LLM)预先离线为每篇文档补充其缺失的检索相关词汇;在查询端,LLM 则预测出原始查询中遗漏的关键证据词汇;此外,系统还调用基于词频的统计信息作为工具函数,自动筛除那些在语料库中完全不存在、过于常见或难以产生有效检索区分度的候选扩展词。最终的检索步骤仅需执行一次加权 BM25 检索,将原始查询与经上述验证后的扩展词组合起来一并提交。 在涵盖十个 BEIR 基准数据集及下游问答任务的全面评估中,SIRA 均展现出显著更优的性能,不仅大幅超越了稠密检索器(dense retrievers),也明显优于当前最先进的多轮智能体式基线方法。实验结果表明:一条经过精心构造的词汇级查询——由大语言模型的认知能力引导,并辅以轻量级语料库统计信息——即可在性能上远超成本高昂得多的多轮检索策略;同时,该方法仍保持高度可解释性、无需训练、且计算高效。
291
热度
许愿开讲
PDF
解读
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
2026年05月03日
现代检索系统——无论是基于词法的还是语义的——均通过一个固定的相似性接口来暴露语料库,将所有访问压缩为推理前的单一“top-k”检索步骤。这一抽象设计虽具效率优势,但对于具备自主行为能力的搜索代理(agentic search)而言,却成为性能瓶颈:精确的词法约束、稀疏线索的逻辑组合、局部上下文校验,以及多步假设的迭代精化,均难以仅凭调用现成的标准检索器来实现;而早期被过滤掉的证据,也无法通过下游更强的推理能力予以恢复。代理型任务进一步加剧了这一局限性,因为它们要求智能体协调多个步骤,包括发现中间实体、整合微弱线索,以及在观察到部分证据后动态调整搜索计划。为应对这一局限,我们提出了“直接语料库交互”(Direct Corpus Interaction, DCI)范式:智能体不依赖任何嵌入模型、向量索引或检索API,而是直接利用通用终端工具(例如 grep、文件读取、Shell 命令、轻量级脚本)对原始语料库进行搜索。该方法无需离线索引构建,且能自然适配持续演化的本地语料库。在信息检索基准测试及端到端代理型搜索任务中,这一简洁架构在多个 BRIGHT 和 BEIR 数据集上显著超越了强效的稀疏检索、稠密检索及重排序基线模型;同时,在 BrowseComp-Plus 和多跳问答任务中亦取得了优异准确率,且全程未使用任何传统语义检索器。我们的结果表明:随着语言智能体能力的持续增强,检索质量不仅取决于其推理能力,更取决于模型与语料库交互所采用接口的“分辨率”(即细粒度控制能力);而 DCI 正是为此类代理型搜索开辟了一个更为广阔、更具延展性的接口设计空间。
207
热度
许愿开讲
PDF
解读
EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge
2026年05月05日
检索增强生成(RAG)已成为将大语言模型与训练阶段不可获取的信息进行事实锚定的标准方法。尽管当前已有数据集和评测基准主要聚焦于网络或其他公开信息源,但迄今尚无被广泛采用的数据集能够真实反映企业内部知识的典型特征。与此同时,初创公司、大型企业和研究人员正日益开发面向此类专有数据运行的AI智能体(AI Agents)。为填补这一关键空白,我们正式发布一个合成的企业级语料库、配套的生成框架,以及一个公开排行榜。 我们推出“EnterpriseRAG-Bench”——一个包含约50万份文档的企业级评测数据集,覆盖九类典型企业信息源(Slack、Gmail、Linear、Google Drive、HubSpot、Fireflies、GitHub、Jira 和 Confluence),并配有涵盖十大类别的500道问题,全面考察模型在信息检索与复杂推理两方面的能力。该语料库在构建时注重跨文档一致性(所有文档均基于共享的项目、人员与战略倡议进行建模),并注入了贴近真实场景的噪声,例如归档错误的文档、高度相似的近似重复文档,以及相互矛盾的信息。问题设计由浅入深:既包括简单的单文档查找任务,也涵盖多文档联合推理、受约束条件限制的精准检索、矛盾信息的识别与消解,以及对“信息缺失”情形的准确判断。其生成框架支持各团队根据自身所处行业、组织规模及信息源构成,灵活定制适配的变体数据集。本数据集、全部源代码、评测工具包(evaluation harness)及实时更新的排行榜均已开源,访问地址为:https://github.com/onyx-dot-app/EnterpriseRAG-Bench。
182
热度
许愿开讲
PDF
解读
GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages
2026年03月14日
低资源语言由于数字化、结构化语言数据严重匮乏,在自然语言处理领域面临独特挑战。为弥补这一空白,加纳国家语言处理倡议(GhanaNLP)项目开发并整理了涵盖特维语(Twi)、芳蒂语(Fante)、埃维语(Ewe)、加语(Ga)和库萨尔语(Kusaal)五种语言的平行句对语料库,共计41,513组句对;这些语言在加纳境内广泛使用,却长期在数字空间中处于代表性不足的状态。每套语料均由本地语言与英语之间经过精细对齐的句子对构成。所有数据均由专业人工完成采集、翻译与标注,并辅以标准化的结构性元数据进行增强,以确保数据的一致性与可用性。这些语料库旨在支持科研、教育及商业应用,包括机器翻译、语音技术以及语言保护工作。本文详述了该语料库的构建方法、数据结构、预期应用场景与评估方式,并介绍了其在真实世界中的落地实践,例如已集成于“卡雅”(Khaya)人工智能翻译引擎之中。总体而言,本研究通过赋能包容、可及的非洲语言技术,为推动人工智能的普惠化发展作出了实质性贡献。
170
热度
许愿开讲
PDF
解读
Do Natural Language Descriptions of Model Activations Convey Privileged Information?
2025年09月16日
最近的一些可解释性方法提出,使用第二个作为“语言化器”的大语言模型(verbalizer LLM),将大语言模型的内部表征转化为自然语言描述,旨在揭示目标模型如何表示和处理输入信息。但这类激活语言化方法是否真正提供了关于目标模型内部运作的独有知识,还是仅仅传达了有关其输入的信息?我们对先前研究中使用的多个数据集上的主流语言化方法进行了批判性评估,发现这些方法即使完全无法访问目标模型内部状态的情况下,在基准测试中仍能取得良好表现,这表明现有数据集并不适合用于评估语言化方法的有效性。随后,我们开展了一系列受控实验,结果表明,这些语言化描述往往反映的是生成它们的语言化大模型自身的参数化知识,而非被解码的目标大模型的真实激活状态。综合来看,我们的研究结果表明,有必要设计更具针对性的基准测试和严格的实验控制,以严谨地评估语言化方法是否真正能够深入揭示大语言模型的运行机制。
160
热度
许愿开讲
PDF
解读
Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting
2025年09月26日
通过对机器人遥操作数据微调视觉-语言模型(VLM)以构建视觉-语言-动作(VLA)模型,是一种训练通用策略的有前景范式,但它面临一个根本性的权衡问题:学习生成动作通常会削弱VLM原有的推理能力与多模态理解能力,从而限制其在新场景中的泛化能力、指令遵循能力以及语义理解能力。我们认为,这种灾难性遗忘源于VLM在互联网规模数据上预训练时的数据分布,与机器人微调数据之间的分布不匹配。受此观察启发,我们提出了VLM2VLA:一种新的VLA训练范式,首先在数据层面解决这一分布差异,方法是用自然语言来表示底层动作。这种对齐方式使得仅通过低秩自适应(LoRA)即可完成VLA的训练,从而最大限度地减少对VLM主干网络的修改,避免灾难性遗忘。因此,该方法能够在不根本改变原有架构、也不需昂贵地联合训练互联网规模VLM数据集的情况下,利用机器人遥操作数据对VLM进行微调。通过广泛的视觉问答(VQA)研究以及超过800次真实世界机器人实验,我们证明了VLM2VLA能够保留VLM的核心能力,使其具备零样本泛化能力,可应对需要开放世界语义推理及多语言指令理解的新任务。
143
热度
许愿开讲
PDF
解读