每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
The Hitchhiker's Guide to Agentic AI: From Foundations to Systems
2026年06月22日
《面向智能体人工智能的 hitchhiker 指南》是一本面向实践者的全面参考手册,专为构建自主式人工智能系统而编写。本书从第一性原理出发,覆盖从基础理论到生产部署的完整技术栈,并围绕一个核心论点展开:要构建卓越的智能体系统,必须深入理解整个技术管线的每一层,而非仅聚焦于其中某一层。 全书开篇聚焦于大语言模型(LLM)这一底层基座——包括Transformer架构、GPU计算系统、模型预训练与微调(监督微调SFT、低秩适配LoRA、混合专家MoE)、模型压缩技术以及推理优化方法;这些内容被视作不可或缺的基础支撑,而非全书的唯一重心。随后,本书深入探讨对齐与推理层:涵盖基于人类反馈的强化学习(RLHF)、近端策略优化(PPO)、直接偏好优化(DPO)及其各类变体、通用奖励策略优化(GRPO)、奖励建模,以及面向大规模推理模型的强化学习方法——包括思维链(Chain-of-Thought)和测试时缩放(Test-Time Scaling)。 本书后半部分则专门聚焦于“智能体人工智能”本身。所涉主题包括:面向智能体的训练范式与基于轨迹的强化学习、检索增强生成(RAG及智能体增强型RAG)、记忆系统(上下文内记忆、外部记忆、情节记忆与语义记忆)、智能体运行时框架(Agent Harness)设计与上下文管理,以及一套系统化的智能体设计模式分类体系。 书中还就智能体间的协同机制进行了深入阐述:涵盖模型上下文协议(Model Context Protocol, MCP)、智能体能力(Skills)与工具调用机制、智能体间通信协议(Agent-to-Agent, A2A),以及覆盖集中式、去中心化与分层式等多种拓扑结构的多智能体系统架构。 最后,本书以智能体开发框架、智能体专属用户界面(UI)设计、面向智能体任务的评估方法论,以及生产环境下的部署实践收尾。每一章均兼顾严谨的理论基础与切实可行的工程指导,辅以可运行的代码示例,并精准引用相关领域的原始文献。
641
热度
许愿开讲
PDF
解读
GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction
2026年05月22日
我们提出了一种全新的高保真三维场景重建方法,该方法仅需多视角RGB图像作为输入,并将重建过程与一个强大的生成式三维先验模型紧密耦合。我们将场景重建建模为一种条件式三维生成任务:首先将整个场景划分为一组在空间上局部化、相互重叠的体素块(chunks),再对这些体素块分别进行生成,从而实现对大尺度场景的可扩展建模。尤为关键的是,我们继承了当前最先进的生成式三维形状模型(以Trellis.2为例)所具备的高保真度与完整性,并将其推广至场景级别。为此,我们设计了一种基于投影的条件控制机制:该机制能够将具有位姿信息的多视角图像特征,提升(lift)为一种与生成模型对齐、且与视角顺序无关的统一三维表征;同时,该表征在空间上严格锚定于真实场景,从而生成出高保真、多视角一致的三维几何结构。这一机制使得原本面向单个物体的Trellis.2强先验能力,得以成功迁移并应用于多视角、大尺度的场景级生成任务,最终输出真实可信、支持后续编辑的PBR(物理渲染)材质网格模型,完整重建室内环境。实验结果表明,本方法在重建质量上显著优于当前最前沿的重建技术,性能提升达16%。
623
热度
许愿开讲
PDF
解读
Bridging Spherical Black-Box Optimizers
2026年06月24日
当梯度信息不可获取时,黑箱优化(BBO)方法提供了一种实用的替代方案。尽管演化策略(ES)、基于共识的优化(CBO)、通过积分进行优化(OVI)及相关方法各自已被独立研究,但它们之间的内在联系仍鲜有探讨。我们将其统一纳入一个共同的理论框架之中,揭示出这些方法的核心差异主要体现在两个设计选择上:一是适应度聚合方式(决定对平坦极小值的偏好程度),二是共识作用范围(决定对多模态解空间的处理能力)。基于上述洞见,我们提出了若干混合型优化器,可在现有方法之间实现平滑插值与灵活切换。其中,我们的ES-OVI混合优化器支持显式调控对平坦极小值的偏好,从而在连续控制任务中实现性能与鲁棒性之间的可控权衡;而我们的CBO-OVI混合优化器则融合了参数化方法在高维空间中的高效性与基于粒子方法的多模态寻优能力,在评估资源受限的语言模型融合任务中取得了具有竞争力的结果。我们在标准黑箱优化基准测试及更高维度的运动控制任务上对所提方法进行了验证,结果表明,这些混合优化器的性能可超越其各自的组成算法。
543
热度
许愿开讲
PDF
解读
SimFoundry: Modular and Automated Scene Generation for Policy Learning and Evaluation
2026年06月26日
在真实世界中训练和评估机器人策略成本高昂,且难以规模化。我们提出 SimFoundry——一种模块化、全自动的系统,能够仅凭一段视频实现“零样本”的真实场景到仿真场景构建。SimFoundry 可生成即用型仿真数字孪生体,并支持对物体、场景及任务进行灵活编辑,从而实现多样化“数字近亲”(digital cousins)的自动化生成;这些“数字近亲”是原始真实场景在保持功能可供性(affordance)前提下的各类变体。基于 SimFoundry 数据训练所得的策略,可零样本迁移至一系列极具挑战性的现实任务中,涵盖多步骤操作、铰接式物体交互以及双手协同操作等复杂场景;而其生成的“数字近亲”(即原始场景、物体与任务的各类变体)则进一步助力策略泛化至全新的真实世界环境。在涵盖 7 类操作任务与 5 种策略架构的广泛实验中,SimFoundry 的仿真评估结果与真实世界性能高度一致:平均皮尔逊相关系数达 0.911,平均最大排序偏差仅为 0.018。当将纯仿真环境中训练的策略直接零样本部署于真实世界时,若训练阶段分别引入物体级、场景级和任务级的“数字近亲”,其任务成功率相较基线分别平均提升 17%、21% 和 40%。更多技术细节请参见:https://research.nvidia.com/labs/gear/simfoundry/。
368
热度
许愿开讲
PDF
解读
Latent Actions from Factorized Transition Effects under Agent Ambiguity
2026年06月29日
潜在动作模型(LAMs)通过观测状态之间的转移学习具有动作特性的代理变量。然而,在多物体场景或干扰物丰富的环境中,这些视觉变化将智能体自身的运动与干扰物、相机运动以及背景变化混杂在一起,若缺乏监督信号,便难以明确区分动作的真实来源。若能将这种混杂效应结构化为可复用的转移效应,则可构建一种中间表征,从而更鲁棒地生成具备动作特性的潜在变量。为此,我们提出了“观测转移分解”(Observed Transition Factorization, OTF)方法,该方法将每一次状态转移分解为一组稀疏的、可观测的基础转移单元(primitives)。以这些基础单元作为转移建模的接口,我们进一步提出了OTF-LAM:它在标准的“逆向—前向动力学”框架内,将运动基础单元抽象为具备动作特性的潜在变量;此外还提出了OTF-LAM-Dino——一种无需解码器的变体,其直接在冻结的DINOv2特征空间中预测未来状态。实验表明,OTF基础单元可在受控的载体类型与形态变化下实现零样本迁移,展现出良好的可复用性;同时,在存在复杂转移歧义性的下游策略学习任务中,其性能达到或超越了现有基线方法。
263
热度
许愿开讲
PDF
解读
G-RRM: Guiding Symbolic Solvers with Recurrent Reasoning Models
2026年07月02日
本研究聚焦于符号等变型递归推理模型(SE-RRM),这是一种具有符号等变特性的RRM具体实现,展现出对更大规模问题更强的外推能力。我们提出一种神经符号融合方法——“基于递归推理模型的引导求解”(G-RRM),将SE-RRM与约束满足问题的符号求解器相结合。其中,SE-RRM作为神经求解器,不仅生成完整的解方案,还为经典符号求解器(如回溯法,或基于SAT的求解器Glucose 4.1与CaDiCaL 3.0.0)提供引导。这些符号求解器则负责产出全局正确解。本研究的核心在于系统探究:在何种条件下,G-RRM所提供的神经引导能切实提升符号求解器的搜索效率? 实验结果表明,G-RRM的有效性依赖于两个关键条件:第一,问题实例必须具备广阔的组合搜索空间,方能充分凸显神经引导带来的潜在收益;第二,符号求解器的架构必须支持动态覆盖(overwrite)其分支选择,从而在神经提示存在偏差时及时恢复。当这两个条件同时满足时,引导策略可将中位冲突次数降至零,并带来显著的实际运行时间加速:在9×9数独问题上(SE-RRM对91.1%的实例给出正确解),回溯法的求解速度提升达33.3倍,Glucose 4.1提升1.70倍(中位值,p < 0.001);即便在提示完全准确的25×25数独网格上,Glucose 4.1仍保持1.17倍的加速效果。相比之下,CaDiCaL 3.0.0因运行时开销占主导、且严格遵循注入的分支提示而无法动态覆盖,故未表现出统计显著的加速效果(中位值仅1.02倍,不显著),甚至在9×9数独上出现微小但统计显著的平均减速(0.90倍)。上述结果清晰界定了神经引导能够转化为实际加速效果的具体适用范围。
219
热度
许愿开讲
PDF
解读
Scalable GANs with Transformers
2025年09月29日
可扩展性推动了生成模型领域的近期进展,但其原则在对抗学习中的应用仍缺乏深入探索。我们通过两种在其他类型生成模型中已被证明有效的设计选择,来研究生成对抗网络(GANs)的可扩展性:一是在紧凑的变分自编码器(VAE)潜在空间中进行训练,二是采用完全基于Transformer结构的生成器和判别器。在潜在空间中训练能够实现高效的计算,同时保持良好的感知质量;而这种高效率与纯Transformer架构天然契合,因为后者性能随计算资源的增加而提升。基于这些设计,我们分析了在直接扩大GAN规模时出现的各种失败模式。具体而言,我们发现随着网络规模扩大,生成器的早期层利用不足,且优化过程变得不稳定。针对这些问题,我们提出了简单且有利于扩展的解决方案:轻量级的中间监督机制,以及考虑网络宽度的学习率调整策略。实验表明,GAT——一种完全基于Transformer且在潜在空间中运行的GAN——能够在广泛的模型容量(从S到XL)下稳定可靠地训练。此外,GAT-XL/2仅用40个训练周期,就在ImageNet-256上实现了单步、类别条件生成的最先进性能(FID为2.96),训练周期数比强基线方法减少了6倍。
210
热度
许愿开讲
PDF
解读