每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Working with AI: Measuring the Occupational Implications of Generative AI
2025年07月10日
鉴于生成式人工智能的快速普及及其对众多任务可能产生的影响,了解人工智能对经济带来的影响是当今社会最重要的课题之一。在这项研究中,我们朝这一目标迈出了重要一步,分析了人们在工作中如何使用人工智能、这些工作活动完成的成功程度与广泛程度,并结合各职业所从事这些活动的数据进行综合评估。我们分析了一个包含20万个匿名且经过隐私保护处理的用户与微软Bing Copilot(一个公开可用的生成式人工智能系统)之间的对话数据集。我们发现,人们最常寻求人工智能帮助的工作活动主要包括信息搜集和写作,而人工智能本身最常执行的活动则包括提供信息与帮助、写作、教学和提供建议。 在将这些活动分类与任务完成的成功程度和影响范围的数据相结合后,我们为每个职业计算出了一个人工智能适用性评分。我们发现,知识型职业群体,例如计算机与数学类、办公与行政支持类,以及像销售这类工作内容涉及提供和传递信息的职业,人工智能的适用性评分最高。此外,我们还分析了哪些类型的工作活动人工智能完成得最为成功,工资和教育水平如何与人工智能的适用性相关联,以及现实世界中人工智能的使用情况与职业层面人工智能影响预测之间的差异。
1275
热度
PDF
解读
Trivial Trojans: How Minimal MCP Servers Enable Cross-Tool Exfiltration of Sensitive Data
2025年07月26日
模型上下文协议(MCP)在AI工具整合方面代表了一项重大进展,使AI代理与外部服务之间能够无缝通信。然而,这种连接性也带来了许多尚未被充分研究的新型攻击途径。本文展示了缺乏复杂技术的威胁行为者,仅需基础的编程技能和免费的网络工具,即可利用MCP的信任模型来窃取敏感的金融数据。我们展示了一个概念验证攻击:一个伪装成正常功能的恶意天气MCP服务器,能够发现并利用合法的银行工具来窃取用户的账户余额。该攻击链条无需高级技术知识、服务器基础设施或资金投入。研究发现,新兴的MCP生态系统中存在一个关键的安全漏洞:尽管单个服务器可能看似可信,但它们的组合却会形成意想不到的跨服务器攻击面。与传统假定攻击者具备高度技术能力的网络安全威胁不同,我们的研究表明,基于MCP的攻击门槛出奇地低。一个具备本科水平Python知识的攻击者就可以设计出具有说服力的社交工程攻击,利用MCP在AI代理与工具提供者之间建立的隐式信任关系。本研究为尚处于起步阶段的MCP安全领域做出了贡献,不仅揭示了当前MCP实现中存在易于利用的跨服务器攻击漏洞,还提出了即时的缓解措施以及协议改进建议,以保障这一新兴生态系统安全。
549
热度
PDF
解读
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
2023年11月16日
大型语言模型在代码生成方面表现出了很好的性能,但是它们在实际应用中存在着相当大的差距,主要是由于实际编程依赖于预先存在的库。这项工作旨在提出一个新的评估设置,其中大型语言模型使用开源库完成机器学习任务,而不是从头开始评估它们生成的代码。因此,我们提出了 ML-Bench,这是一个广泛的基准测试,用于评估大型语言模型利用开源库中现有函数的效果。该基准测试包含了10044个样本,涵盖了14个著名的机器学习GitHub库中的130个任务。在这种设置下,给定一个特定的机器学习任务指令和相应的README,大型语言模型被要求生成完成任务的代码。这需要理解交织着长篇语言和代码的文档,以及理解复杂的跨文件代码结构,引入了新的挑战。值得注意的是,虽然 GPT-4 在其他大型语言模型中表现出了显着的改进,但它只完成了39.73%的任务,留下了巨大的改进空间。我们通过提出 ML-Agent 来解决这些挑战,该代理被设计为能够有效地浏览代码库、定位文档、检索代码和生成可执行代码。实证结果表明,建立在 GPT-4 之上的 ML-Agent 取得了进一步的改进。代码、数据和模型可在 \url{https://ml-bench.github.io/} 上获得。
311
热度
PDF
解读
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
2025年07月10日
近年来,语言模型(LM)领域取得了重大进展,这主要得益于从针对特定任务设计的专用模型转向基于强大架构(例如Transformer)的通用模型,后者能够完全从原始数据中进行学习。尽管存在这一趋势,诸如分词之类的预处理步骤仍然是实现真正端到端基础模型的障碍。我们提出了一系列新技术,支持一种动态分块机制,该机制可以与模型的其余部分联合自动学习内容和上下文相关的分割策略。将这种机制整合进一个明确的层次化网络(H-Net)后,就可以用一个完全端到端训练的单一模型取代传统的(隐含层次结构的)分词-LM-去分词流程。 在计算资源和数据量相匹配的情况下,一个采用字节级别单一层级结构的H-Net的表现优于基于BPE分词的强大Transformer语言模型。进一步将层级结构扩展到多个阶段,可以通过建模多个抽象层级而进一步提升性能,表现出更优的数据扩展性,并且达到与自身两倍大小的基于分词的Transformer相当的效果。在英文上预训练的H-Net展现出显著增强的字符级鲁棒性,并且无需任何启发式规则或显式监督即可定性地学习出有意义的数据相关分块策略。最后,在那些分词启发式较弱的语言和模态(如中文、代码或者DNA序列)中,H-Net相对于分词流程的优势更加明显(在数据效率方面提升接近4倍),展示了真正端到端模型在从未加工数据中更好学习和扩展的潜力。
235
热度
PDF
解读
Meta CLIP 2: A Worldwide Scaling Recipe
2025年07月29日
对比语言-图像预训练(CLIP)是一种流行的基础模型,支持从零样本分类、检索到多模态大语言模型(MLLMs)的编码器等多种任务。尽管 CLIP 已经成功地在数十亿规模的英文世界图像-文本对上进行了训练,但要进一步将 CLIP 的训练扩展到全球网络数据上仍然面临挑战:(1)目前没有合适的数据筛选方法来处理非英文世界的数据点;(2)现有的多语言 CLIP 在英文任务上的表现不如其仅使用英文训练的版本,这被称为“多语言的诅咒”,在大语言模型中也较为常见。在此,我们提出了 Meta CLIP 2,这是首个基于全球网络规模图像-文本对从头训练 CLIP 的方法。为了使我们的发现具有普适性,我们通过尽可能微小的改动进行了严格的消融实验,以应对上述挑战,并提出了一种能够让英文与非英文世界数据相互受益的训练方法。在零样本 ImageNet 分类任务中,Meta CLIP 2 的 ViT-H/14 模型超越了仅使用英文数据训练的版本 0.8%,也超过了 mSigLIP 0.7%。令人意外的是,它还在多项多语言基准测试中不依赖系统级的混淆因素(例如翻译、定制架构改动)的情况下达到了新的最佳性能,例如在 CVQA 数据集上达到 57.4%,在 Babel-ImageNet 上达到 50.2%,在 XM3600 图像到文本检索任务上达到 64.3%。
231
热度
PDF
解读