每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets
2025年12月01日
大型语言模型(LLMs)已展现出作为自主智能体的显著潜力,通过先进的推理能力和工具协调能力,其表现已接近人类专家水平。然而,在完全动态和实时的环境中进行决策仍然极具挑战性,需要实现实时信息整合与自适应响应。尽管已有研究探索了在结构化任务中的实时评估机制,但在面向真实世界应用的系统性基准测试方面仍存在明显空白,尤其是在金融领域,对实时策略响应能力有着严格要求。为填补这一空白,我们推出了AI-Trader——首个面向LLM智能体在金融决策中实现全自动、实时且数据无污染的评估基准。AI-Trader覆盖三大主要金融市场:美国股票、A股和加密货币,并支持多种交易粒度,以模拟真实的金融环境。该基准采用一种革命性的“完全自主、最小信息”范式:智能体仅能获取最基本的情境信息,必须独立完成对实时市场信息的搜索、验证与综合,全程无需人工干预。我们在三个市场及多种交易频率下评估了六种主流大语言模型的表现。分析揭示出若干令人震惊的发现:通用智能并不能自动转化为有效的交易能力,大多数智能体表现出收益不佳且风险控制能力薄弱。我们证明,风险控制能力是决定跨市场稳健性的关键因素,而人工智能交易策略在高流动性市场中比在政策驱动型市场中更容易实现超额收益。这些发现揭示了当前自主智能体的关键局限性,并为未来改进指明了清晰方向。相关代码与评估数据均已开源,以促进社区研究:https://github.com/HKUDS/AI-Trader。
1.39w
热度
PDF
解读
The $\mathbf{Y}$-Combinator for LLMs: Solving Long-Context Rot with $λ$-Calculus
2026年03月20日
大语言模型(LLMs)正日益被用作通用型推理引擎,但长文本输入仍受限于模型固定的上下文窗口,构成性能瓶颈。递归式语言模型(RLMs)通过将提示词(prompt)外置,并以递归方式逐层求解子问题,来应对这一挑战。然而,现有RLM依赖一种开放式的“读取—求值—打印”循环(REPL),即模型可自由生成任意控制代码,导致其执行过程难以验证、预测与分析。 本文提出λ-RLM框架,一种面向长上下文推理的新范式:它摒弃了自由形式的递归代码生成,转而采用基于λ演算的、具备类型约束的函数式运行时系统。该系统仅执行一组预先验证过的精简组合子(combinator)库,并将神经网络推理严格限制在规模有界的叶节点子问题上,从而将递归推理转化为具有显式控制流的结构化函数式程序。我们证明,相较于标准RLM,λ-RLM能够提供若干形式化保障——包括确定性终止性、闭式计算开销上界、推理精度随递归深度可控衰减,以及在简单代价模型下的最优问题划分规则。实验结果表明,在四项长上下文推理任务及九种基础模型的组合测试中,λ-RLM在36组模型—任务对比中于29组上超越标准RLM;其平均准确率在各模型层级上最高提升达+21.9分,同时推理延迟最多降低至原来的1/4.1(即加速达4.1倍)。这些结果表明,引入类型安全的符号化控制机制,相比开放式递归代码生成,能为长上下文推理提供更可靠、更高效的底层支撑。λ-RLM的完整实现已面向社区开源,地址为:https://github.com/lambda-calculus-LLM/lambda-RLM。
678
热度
许愿开讲
PDF
解读
OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling
2024年11月14日
深度神经网络(DNNs)由于其计算密集和数据密集的特性,在部署到资源受限的边缘设备时面临重大挑战。虽然针对特定应用场景定制的独立加速器存在控制不灵活和可编程性有限的问题,但与RISC-V CPU结合的通用硬件加速平台可以实现高可重用性和灵活性,不过通常以系统级效率低下和利用率低为代价。为了填补这一空白,我们提出了OpenGeMM,这是一个开源加速平台,同时展示了高效率和利用率,以及易于配置和编程的特点。OpenGeMM包括一个参数化的Chisel编码的矩阵乘法(GeMM)加速器、一个轻量级的RISC-V处理器和一个紧密耦合的多银行暂存存储器。通过三种机制:配置预加载、输入预取与输出缓冲以及可编程的跨步内存访问,提高了GeMM核心利用率和系统效率。实验结果表明,OpenGeMM在各种卷积神经网络(CNN)和变换器(Transformer)工作负载中,硬件利用率始终在81.89%到99.34%之间。与最先进的开源Gemmini加速器相比,OpenGeMM在广泛的GeMM工作负载中,归一化吞吐量提升了3.58倍至16.40倍,同时实现了4.68 TOPS/W的系统效率。
415
热度
许愿开讲
PDF
解读
Why Are Linear RNNs More Parallelizable?
2026年03月04日
学界正日益将线性循环神经网络(LRNN)作为语言模型加以探索,其动因在于LRNN兼具强大的表达能力与良好的并行可扩展性。尽管已有研究证实了LRNN相较于Transformer在表达能力上的优势,但一个关键问题仍悬而未决:为何LRNN(而非传统的非线性RNN)在实践中能像Transformer一样高效并行化?我们通过建立不同类型的RNN与标准计算复杂度类之间的紧致关联,回答了这一问题。我们证明,LRNN可被视作深度为对数级(且门扇入有界)的算术电路;该深度仅略高于Transformer所对应的对数深度布尔电路,因而并行开销极小。进一步地,我们指出,非线性RNN能够求解L-完全问题(甚至在多项式精度假设下可求解P-完全问题),这揭示出其在并行效率上存在根本性瓶颈——无法像Transformer那样高效并行化。我们的理论还进一步刻画了近期若干主流LRNN变体之间细粒度的表达能力差异:置换-对角型LRNN是NC¹-完全的,而对角加低秩型LRNN则具有更强的表达能力(达到PNC¹-完全)。我们还通过为每一类RNN关联一个相应的自动机理论模型(即该RNN所能模拟的自动机类型),提供了更深入的理解。综上所述,我们的研究成果揭示了非线性RNN与各类LRNN之间固有的表达能力与并行效率权衡关系,为设计大语言模型(LLM)架构奠定了理论基础——使模型能在表达能力与并行效率之间实现最优平衡。
398
热度
许愿开讲
PDF
解读
Hyperagents
2026年03月19日
自优化人工智能系统旨在通过学习改进自身的学习与问题求解过程,从而降低对人工工程设计的依赖。当前的自优化方法均依赖于固定、人工预设的元层级机制,从根本上限制了此类系统的进化速度。达尔文—哥德尔机(DGM)通过反复生成并评估自身修改后的变体,在编程任务中实现了开放式自优化。由于评估与自我修改本身皆为编程任务,因此编程能力的提升可直接转化为自优化能力的提升。然而,这种能力对齐关系在编程领域之外通常并不成立。为此,我们提出**超智能体(hyperagents)**——一类具有自指能力的智能体,它将任务智能体(负责解决目标任务)与元智能体(负责修改自身及任务智能体)整合为一个统一的、可编辑的程序。尤为关键的是,该元层级的修改流程本身亦是可编辑的,从而支持元认知层面的自我修改:不仅优化任务求解行为,更持续改进未来自我优化所依赖的机制本身。我们在DGM框架基础上拓展构建了**DGM-超智能体(DGM-H)**,以实例化这一新范式;该拓展消除了原有假设——即任务性能提升与自我修改能力提升之间必须存在特定领域内的对齐关系,因而有望在任意可计算任务上实现自我加速式进步。在多个迥异的任务领域中,DGM-H均展现出随时间推移而持续提升的性能,并显著优于不具备自优化能力或开放式探索能力的基线模型,也超越了此前各类自优化系统。此外,DGM-H还能不断优化其生成新智能体的过程本身(例如引入持久化记忆、性能追踪机制等),而这些元层级的改进不仅可在不同任务领域间迁移复用,还能在多次运行中持续累积。DGM-超智能体为我们揭示了一类真正开放式的AI系统之雏形:它们不再仅限于搜索更优解,而是持续进化其“如何改进自身”的整个搜索机制。
353
热度
许愿开讲
PDF
解读
Practicing with Language Models Cultivates Human Empathic Communication
2026年03月16日
共情是人类联结的核心,但人们往往难以有效表达共情。在盲评实验中,大型语言模型(LLM)生成的回应常被评判为比人类撰写的回应更具共情性;然而,一旦某条回应被明确标注为“由AI生成”,接收者便会觉得自身更少被倾听、更少被认可——即便该回应与人类所写的内容完全相同。为深入探究并弥合这一共情沟通能力上的落差,我们开发了实验性对话平台“Lend an Ear”(侧耳倾听),邀请参与者向扮演个人生活及职场困扰角色的LLM提供共情支持。基于968名参与者与其LLM对话伙伴之间开展的2,904场纯文本对话、共计33,938条消息的数据,我们构建了一个源于真实对话、以惯用表达为基础的共情性言语行为分类体系。依托一项预先注册的随机对照实验,我们发现:一种简短的LLM辅导干预——即针对每位参与者提供个性化反馈,指导其如何更有效地传达共情——能显著提升参与者实际沟通模式与规范性共情沟通模式之间的一致性;这种提升效果不仅显著优于未接受任何干预的对照组,也明显超过仅接受通用视频讲解(但无个性化反馈)的对照组。此外,我们还发现了“静默共情效应”(silent empathy effect)的实证依据:人们内心确能真切感受到共情,却系统性地无法将其恰当地外化表达出来。不过,参与者仍能稳定、可靠地识别出符合规范性共情沟通标准的回应,并一致认为这类回应更能体现共情。综上,本研究不仅深化了科学界对共情如何被表达与被珍视的理解,同时也验证了一种可大规模推广、以人工智能为支撑的干预方式,能够切实为共情能力的发展提供脚手架式支持,并有效促进其培养与提升。
198
热度
许愿开讲
PDF
解读