每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
2025年09月27日
最近,NVIDIA和AMD的GPU所支持的硬件加速微缩放4位浮点格式(如MXFP4和NVFP4)有望彻底改变大语言模型(LLM)的推理过程。然而,这些格式的实际效益尚未得到证实。本文首次对MXFP4和NVFP4在训练后量化中的应用进行了全面研究,揭示了其理论潜力与实际性能之间的差距。我们的分析表明,当前最先进的方法在处理FP4时面临两大关键问题:(1)NVFP4的组尺寸过小,从理论上削弱了传统异常值缓解技术的效果;(2)MXFP4采用的幂指数缩放量化方式会引入较大误差,从而严重损害模型精度。为弥合这一差距,我们提出了Micro-Rotated-GPTQ(MR-GPTQ),这是经典GPTQ量化算法的一种改进版本,通过引入分块Hadamard变换和针对特定格式的优化策略,使量化过程更适配FP4的独特特性。我们还设计了一组高性能GPU内核,通过将旋转操作融合到权重中,并实现激活值的快速在线计算,使MR-GPTQ格式的额外开销几乎可以忽略不计。实验结果显示,在NVIDIA B200上,MR-GPTQ相比FP16可实现最高3.6倍的逐层加速和2.2倍的端到端加速;在RTX5090上则分别达到6倍和4倍。大量实证评估表明,MR-GPTQ在精度上达到或超过了当前最先进的方法,显著提升了MXFP4的表现,使其精度接近NVFP4。我们得出结论:尽管FP4并非自动优于INT4,但像MR-GPTQ这样针对特定格式设计的方法,能够开辟全新的精度与性能权衡前沿。
486
热度
许愿开讲
PDF
解读
Informing Acquisition Functions via Foundation Models for Molecular Discovery
2025年12月15日
贝叶斯优化(BO)是一种关键方法,通过估计分子与其性质之间的映射关系并寻找最优候选分子,从而加速分子发现过程。通常情况下,BO会迭代更新该映射的概略概率代理模型,并优化由此模型导出的采集函数,以指导分子选择。然而,在数据稀少、先验知识不足且候选空间庞大的情况下,其性能受到限制。大型语言模型(LLMs)和化学专用的基础模型能够提供丰富的先验信息,有助于提升BO的效果,但高维特征、代价高昂的上下文学习以及深度贝叶斯代理模型带来的计算负担,限制了这些模型的充分应用。为应对这些挑战,我们提出了一种无需显式似然建模的贝叶斯优化方法,该方法绕过传统的代理建模过程,直接利用通用大语言模型和化学专用基础模型中的先验信息来构建采集函数。我们的方法还学习对分子搜索空间进行树状结构划分,并在每个局部区域定义相应的采集函数,从而通过蒙特卡洛树搜索实现高效的候选分子筛选。此外,通过引入基于粗粒度大语言模型的聚类机制,该方法进一步提升了对大规模候选集合的可扩展性——仅在那些统计上具有更高属性值的聚类内进行采集函数的评估。大量实验与消融分析结果表明,所提出的方法显著提升了大语言模型引导下的分子发现任务中贝叶斯优化的可扩展性、鲁棒性以及样本使用效率。
316
热度
许愿开讲
PDF
解读
Trust-Region Adaptive Policy Optimization
2025年12月19日
后训练方法,尤其是监督微调(SFT)与强化学习(RL),在提升大语言模型(LLM)复杂推理能力方面发挥着关键作用。然而,目前主流的两阶段流程(先SFT后RL)存在一个关键缺陷:SFT强制进行严格的模仿学习,抑制了探索能力,并导致知识遗忘,从而限制了RL进一步优化的潜力。为解决这一低效问题,我们提出了TRAPO(信任区域自适应策略优化)框架——一种混合方法,在每个训练实例中交替执行SFT与RL:在专家生成的前缀部分优化SFT损失,在模型自身生成的续写部分优化RL损失,从而将外部监督与自我探索有机统一起来。为了稳定训练过程,我们引入了“信任区域SFT”(TrSFT),该方法在信任区域内最小化前向KL散度,而在区域外减弱优化强度,从而有效向反向KL散度过渡,产生有利于强化学习的稳定且具有模式聚焦特性的参数更新。此外,自适应前缀选择机制根据实际效用动态分配专家指导资源。在五个数学推理基准上的实验表明,TRAPO持续优于标准的SFT、RL以及SFT-后-RL流程,同时超越了近期最先进的方法,确立了一种增强语言模型推理能力的强有力新范式。
305
热度
许愿开讲
PDF
解读
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
2025年12月01日
我们提出GR-RL,这是一种机器人学习框架,可将通用的视觉-语言-动作(VLA)策略转化为擅长长周期灵巧操作的高效专用策略。现有VLA策略通常以人类示范为最优前提,但我们认为,在高度灵巧且精密的操作任务中,人类示范往往存在噪声且并非最优。为此,GR-RL设计了一种多阶段训练流程,通过强化学习对示范数据进行过滤、增强和优化。首先,GR-RL学习一种基于视觉和语言条件的任务进展模型,用以筛选示范轨迹,仅保留对任务进展有积极贡献的状态转移。具体而言,我们证明:通过直接应用稀疏奖励的离线强化学习,所得到的$Q$值可被有效视为一种鲁棒的进展函数。接着,我们引入形态对称性增强方法,显著提升了GR-RL的泛化能力与性能表现。最后,为了使VLA策略在部署时的行为更契合高精度控制需求,我们通过学习一个潜在空间的噪声预测器来实施在线强化学习。借助这一完整流程,据我们所知,GR-RL成为首个能够自主完成系鞋带任务的学习型策略——它能将鞋带依次穿过多对鞋眼,成功率达83.3%,而该任务需要长周期推理、毫米级操控精度以及对柔性软体物体的顺应性交互。我们希望GR-RL能够推动通用机器人基础模型向可靠的现实世界专家角色演进。
297
热度
许愿开讲
PDF
解读
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
2025年07月27日
多模态大语言模型(MLLMs)近年来取得了显著进展,这主要得益于它们处理越来越长且复杂上下文的能力,例如高分辨率图像、长时间视频序列以及长段音频输入。虽然这种能力极大地提升了MLLM的表现,但也带来了显著的计算挑战,主要源于自注意力机制的平方复杂度,特别是在面对大量输入token时。为缓解这些瓶颈,token压缩作为一种有前景且关键的方法逐渐兴起,能够在训练和推理过程中高效地减少token数量。 本文对这一快速发展的多模态长上下文token压缩领域进行了首次系统性的综述与整合。考虑到有效的压缩策略与各模态自身的特性及冗余密切相关,我们根据方法的主要数据关注点进行分类,使研究人员能够快速了解并掌握与其研究领域相关的技术:(1)以图像为中心的压缩方法,主要应对视觉数据中的空间冗余;(2)以视频为中心的压缩方法,旨在处理动态序列中的时空冗余;(3)以音频为中心的压缩方法,用于处理音频信号中的时间与频谱冗余。除了基于模态的分类,我们还根据方法的核心机制进行了进一步的梳理,包括基于变换、基于相似性、基于注意力以及基于查询的压缩方法。 通过提供全面且结构清晰的概述,本综述旨在整合当前的研究进展,指出关键挑战,并为未来的研究方向提供启发。同时,我们维护了一个公开的代码库,以持续追踪并更新这一前景广阔领域的最新进展。
268
热度
许愿开讲
PDF
解读
ICLR: In-Context Learning of Representations
2024年12月29日
最近的研究表明,预训练数据所规定的语义会影响大型语言模型(LLM)中不同概念表示的组织方式。然而,鉴于LLM的开放性特点,例如它们能够进行上下文学习,我们可以探讨这些模型是否会改变预训练语义以采用替代的、由上下文指定的语义。具体来说,如果我们提供一些在上下文中示例,在这些示例中某个概念扮演的角色与预训练数据所暗示的不同,模型是否会根据这些新的语义重新组织其表示?为了解答这个问题,我们从概念角色语义理论中获得启发,定义了一个简单的“图追踪”任务,其中图的节点通过训练过程中见过的概念(如苹果、鸟等)来引用,而图的连接性则通过某种预定义结构(如正方形网格)来定义。给定指示图上随机游走痕迹的示例,我们分析了模型的中间表示,并发现随着上下文量的增加,模型表示会突然从预训练语义表示重新组织为与图结构对齐的上下文表示。此外,我们发现当引用概念在其语义上有相关性(例如星期一、星期二等),上下文指定的图结构仍然存在于表示中,但无法主导预训练结构。为了解释这些结果,我们将我们的任务类比为预定义图拓扑的能量最小化,提供了证据表明存在一个隐式的优化过程来推断上下文指定的语义。总体而言,我们的研究结果表明,增加上下文规模可以灵活地重新组织模型表示,可能解锁新的能力。
252
热度
许愿开讲
PDF
解读
The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains
2025年07月08日
语言模型的改进通常依赖于提升训练数据的质量,而当强监督信号稀缺时,这种方式可能会受到限制。在本项研究中,我们表明,即使每条单独的数据质量较低,由成对偏好数据组成的训练集仍然可以带来超出单个弱数据点能力的学习效果。为了阐释这一现象,我们提出了“差值学习”(delta learning)假设,认为只要数据点之间的相对质量差异存在,就可以通过偏好调优来推动模型学习——即便直接使用这些弱数据进行监督微调会产生负面影响。我们在受控实验和大规模场景中验证了这一假设,其中我们使用一个较小的3B参数模型与一个更小的1.5B参数模型生成的回答配对,构建出具有明显质量差异的偏好数据,并在此基础上对8B参数模型进行后训练。令人惊讶的是,在包含MATH、MMLU等在内的标准11项基准评估中,我们的简单方法表现媲美Tulu 3——这是一个基于相同基础模型、但依赖更强监督信号(例如GPT-4o)调优而成的最先进开源模型。因此,差值学习为实现高质量的后训练提供了一种更为简单且成本更低的开源方案。为了更好地理解差值学习机制,我们在逻辑回归模型中证明:两个较弱教师模型之间的性能差距能够为更强的学生模型提供有价值的学习信号。总体而言,我们的研究表明,模型可以从以往通常被认为质量不足的成对数据中实现出人意料的良好学习效果。
247
热度
许愿开讲
PDF
解读