AI热门论文

Pretraining Large Language Models with NVFP4

在本研究中，我们提出了一种基于NVFP4格式的新型方法，可实现大语言模型（LLM）稳定且精确的训练。该方法结合了随机哈达玛变换（RHT）以限制块级异常值，采用二维量化方案确保前向和反向传播过程中表示的一致性，利用随机舍入实现无偏梯度估计，并引入选择性高精度层。我们通过在一个120亿参数的模型上训练10万亿个token来验证所提出方法的有效性——这是迄今为止公开记录中最长的4比特精度训练过程。实验结果表明，采用我们基于NVFP4的预训练技术所训练出的模型，在训练损失和下游任务准确率方面均与FP8基线模型相当。这些发现表明，将NVFP4与我们的训练方法相结合，标志着窄精度大语言模型训练算法迈出了重要一步。

837

热度

许愿开讲

PDF

解读

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

Andrew Rouditchenko ,

我们提出了 Omni-R1，它基于最近的多模态大语言模型通义千问2.5-Omni，并在音频问答数据集上使用强化学习方法 GRPO 进行微调。这使得 Omni-R1 在最近的 MMAU 和 MMAR 基准测试中达到了新的最先进性能。Omni-R1 在 Test-mini 和 Test-full 两个测试集中，于声音、音乐、语音以及整体平均类别上均取得了最高的准确率。为了理解性能提升的原因，我们分别测试了有音频和无音频的模型，发现 GRPO 带来的性能改进很大程度上可以归因于更好的基于文本的推理能力。此外，我们还意外地发现，在仅包含文本的数据集上进行微调（不使用音频），也能有效提升模型的音频相关性能。

303

热度

许愿开讲

PDF

解读

Defeating the Training-Inference Mismatch via FP16

大语言模型（LLM）的强化学习（RL）微调常常由于训练策略与推理策略之间的数值不匹配而出现不稳定现象。尽管先前的研究尝试通过算法修正或工程对齐来缓解这一问题，但我们发现其根本原因在于浮点数精度本身。广泛应用的BF16格式虽然具有较大的动态范围，但会引入显著的舍入误差，破坏训练与推理之间的一致性。在本研究中，我们证明仅需简单地恢复使用**FP16**即可有效消除这种不匹配。这一改动极为简便，现代深度学习框架均可原生支持，仅需修改少量代码，且无需调整模型结构或学习算法。我们的实验结果表明，在各种任务、算法和框架下，统一采用FP16能够带来更稳定的优化过程、更快的收敛速度以及更强的整体性能。我们希望这些发现能促使人们更广泛地重新思考强化学习微调中的精度权衡问题。

267

热度

许愿开讲

PDF

解读

WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models

大规模且高质量的图像-文本对数据集在开发高性能视觉-语言模型（VLM）中起着至关重要的作用。本文提出了WAON，这是一个大规模、高质量的日语图像-文本对数据集，包含约1.55亿个样本，采集自Common Crawl。我们的数据集构建流程采用了多种技术，包括过滤和去重，这些方法在先前的研究中已被证明是有效的。为了评估其有效性，我们还构建了WAON-Bench，一个经过人工整理的日语文化图像分类基准数据集，共包含374个类别。为评估本数据集的效果，我们使用WAON以及目前最广泛使用的视觉-语言数据集之一ReLAION的日语子集进行了实验。我们在两个数据集上对SigLIP2这一强大的多语言模型进行了微调。结果表明，与ReLAION相比，使用WAON微调的模型在WAON-Bench上的性能提升更为显著，并在所有评测基准上均实现了更高的准确率。此外，在WAON上微调的模型在多个日语文化相关的基准测试中达到了当前最优的性能水平。我们已将数据集、模型和代码公开发布于 https://speed1313.github.io/WAON。

250

热度

许愿开讲

PDF

解读

Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class

在构建表格数据分类器时，处理类别分布不平衡的问题一直是长期关注的焦点。一种流行的方法是通过合成生成的数据来扩充训练数据集。传统的增强技术仅限于现有少数类样本的线性插值，而最近，更高容量的深度生成模型提供了更大的潜力。然而，在构建深度生成模型时处理类别分布不平衡也是一个具有挑战性的问题，这方面的研究不如不平衡分类模型训练那么深入。我们发现，最先进的深度生成模型生成的少数类样本质量明显低于多数类样本。我们观察到，在不平衡数据集上训练的生成模型会低估少数类的代表性。我们提出了一种新颖的技术，即将二元类别标签转换为三元类别标签，通过引入一个少数类和多数类分布重叠的区域作为新类别。我们证明，仅通过这种对训练集的预处理，就可以显著提高多个最先进扩散模型和基于GAN的模型所生成数据的质量。在使用合成数据训练分类器时，我们将重叠类别从训练数据中移除，并解释了其背后提升准确性的原因。我们在四个真实数据集、五种不同的分类器和五种生成模型上进行了广泛的实验，证明我们的方法不仅增强了最先进模型的合成性能，还提升了分类器的性能。

218

热度

许愿开讲

PDF

解读

Online Learning and Unlearning

我们将在线学习-遗忘问题形式化，其中模型在在线环境中以顺序方式更新，同时在更新之间处理遗忘请求。一旦某个数据点被遗忘，所有后续输出必须在统计上与没有该数据点训练的模型输出无法区分。我们提出了两种在线学习-遗忘（OLU）算法，它们都基于在线梯度下降（OGD）。第一种是被动OLU，它利用OGD的收缩特性，并在遗忘发生时注入噪声，且不增加额外计算成本。第二种是主动OLU，它使用一种离线遗忘算法，将模型向排除已删除数据的解移动。在标准的凸性和平滑性假设下，这两种方法都实现了与标准OGD相当的后悔界（regret bounds），这表明可以在提供遗忘保证的同时保持具有竞争力的后悔界。

212

热度

许愿开讲

PDF

解读

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

本文提出了一个新颖而重要的挑战，即视觉语言模型（VLM）面临无法解决问题时的无解问题检测（UPD）。UPD检查了VLM在视觉问答（VQA）任务的背景下面对无法解决的问题时保留答案的能力。UPD包括三个不同的设置：缺失答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD）。通过广泛的实验，深入研究UPD问题，表明大多数VLM，包括GPT-4V和LLaVA-Next-34B，都在不同程度上难以应对我们的基准，突显了改进的重要空间。为了解决UPD问题，我们探索了无需训练和基于训练的解决方案，提供了新的见解，阐明了它们的有效性和局限性。我们希望我们的见解和未来在提出的UPD设置中的努力将增强更实用和可靠的VLM的广泛理解和发展。

185

热度

许愿开讲

PDF

解读

Scaling Latent Reasoning via Looped Language Models

现代大语言模型（LLM）主要通过显式的文本生成（例如思维链，CoT）来实现“思考”，但这种方式将推理能力的培养推迟到训练后期，未能充分利用预训练阶段的数据。本文提出并开源了Ouro模型，其名称取自象征循环递归的衔尾蛇（Ouroboros），属于一类新型的“循环语言模型”（LoopLM）。该模型将推理能力直接融入预训练阶段，具体通过以下三个关键设计实现：（i）在隐空间中进行迭代计算，（ii）采用熵正则化目标以学习动态调整计算深度，以及（iii）在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出色，性能媲美高达120亿参数的当前最优大模型。通过受控实验，我们证明这一优势并非源于更大的知识容量，而是来自更强大的知识运用能力。此外，我们还发现，与显式思维链相比，LoopLM生成的推理过程与最终输出更为一致。我们希望这些结果能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可在以下网址获取：http://ouro-llm.github.io。

159

热度

许愿开讲

PDF

解读

Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

随着深度学习和大规模语言模型中新兴现象的快速发现，解释和理解其背后原因已成为当务之急。在本文中，我们提出了一种严谨的熵力理论，用于分析通过随机梯度下降（SGD）及其变体训练的神经网络的学习动力学。基于参数对称性和熵损失景观的理论，我们表明，表征学习的关键在于由随机性和离散时间更新产生的新兴熵力所主导。这些力系统性地打破了连续参数对称性，同时保留了离散对称性，从而引发了一系列类似于热力学系统能量均分特性的梯度平衡现象。这些现象进一步（a）解释了神经表征在人工智能模型之间的普遍对齐现象，并为柏拉图式表征假设提供了证明；（b）调和了深度学习优化过程中追求尖锐性和平坦性行为之间看似矛盾的观察结果。我们的理论与实验表明，熵力与对称性破缺的结合是理解深度学习中新兴现象的核心所在。

150

热度

许愿开讲

PDF

解读

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

大语言模型（LLM）的快速扩展揭示了当前硬件架构中的关键局限性，包括内存容量、计算效率和互连带宽方面的限制。DeepSeek-V3 在 2,048 个 NVIDIA H800 GPU 上进行训练，展示了如何通过硬件感知的模型协同设计有效应对这些挑战，从而实现大规模训练和推理的成本效益。本文深入分析了 DeepSeek-V3/R1 模型架构及其人工智能基础设施，重点介绍了多项创新技术，例如多头潜在注意力机制（MLA）以提高内存效率、专家混合（MoE）架构以优化计算与通信的权衡、FP8 混合精度训练以充分释放硬件潜力，以及多平面网络拓扑结构以最小化集群级别的网络开销。基于 DeepSeek-V3 开发过程中遇到的硬件瓶颈，我们与学术界和工业界的同行展开了更广泛的讨论，探讨了未来硬件发展的潜在方向，包括精确的低精度计算单元、向上扩展与向外扩展的融合，以及低延迟通信结构的创新。这些见解强调了硬件与模型协同设计在满足日益增长的人工智能工作负载需求中的关键作用，并为下一代人工智能系统的创新提供了实用的蓝图。

149

热度

许愿开讲

PDF

解读