每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models
2025年10月25日
大规模且高质量的图像-文本对数据集在开发高性能视觉-语言模型(VLM)中起着至关重要的作用。本文提出了WAON,这是一个大规模、高质量的日语图像-文本对数据集,包含约1.55亿个样本,采集自Common Crawl。我们的数据集构建流程采用了多种技术,包括过滤和去重,这些方法在先前的研究中已被证明是有效的。为了评估其有效性,我们还构建了WAON-Bench,一个经过人工整理的日语文化图像分类基准数据集,共包含374个类别。为评估本数据集的效果,我们使用WAON以及目前最广泛使用的视觉-语言数据集之一ReLAION的日语子集进行了实验。我们在两个数据集上对SigLIP2这一强大的多语言模型进行了微调。结果表明,与ReLAION相比,使用WAON微调的模型在WAON-Bench上的性能提升更为显著,并在所有评测基准上均实现了更高的准确率。此外,在WAON上微调的模型在多个日语文化相关的基准测试中达到了当前最优的性能水平。我们已将数据集、模型和代码公开发布于 https://speed1313.github.io/WAON。
250
热度
许愿开讲
PDF
解读
Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class
2024年12月20日
在构建表格数据分类器时,处理类别分布不平衡的问题一直是长期关注的焦点。一种流行的方法是通过合成生成的数据来扩充训练数据集。传统的增强技术仅限于现有少数类样本的线性插值,而最近,更高容量的深度生成模型提供了更大的潜力。 然而,在构建深度生成模型时处理类别分布不平衡也是一个具有挑战性的问题,这方面的研究不如不平衡分类模型训练那么深入。我们发现,最先进的深度生成模型生成的少数类样本质量明显低于多数类样本。我们观察到,在不平衡数据集上训练的生成模型会低估少数类的代表性。我们提出了一种新颖的技术,即将二元类别标签转换为三元类别标签,通过引入一个少数类和多数类分布重叠的区域作为新类别。我们证明,仅通过这种对训练集的预处理,就可以显著提高多个最先进扩散模型和基于GAN的模型所生成数据的质量。在使用合成数据训练分类器时,我们将重叠类别从训练数据中移除,并解释了其背后提升准确性的原因。我们在四个真实数据集、五种不同的分类器和五种生成模型上进行了广泛的实验,证明我们的方法不仅增强了最先进模型的合成性能,还提升了分类器的性能。
218
热度
许愿开讲
PDF
解读
Scaling Latent Reasoning via Looped Language Models
2025年10月29日
现代大语言模型(LLM)主要通过显式的文本生成(例如思维链,CoT)来实现“思考”,但这种方式将推理能力的培养推迟到训练后期,未能充分利用预训练阶段的数据。本文提出并开源了Ouro模型,其名称取自象征循环递归的衔尾蛇(Ouroboros),属于一类新型的“循环语言模型”(LoopLM)。该模型将推理能力直接融入预训练阶段,具体通过以下三个关键设计实现:(i)在隐空间中进行迭代计算,(ii)采用熵正则化目标以学习动态调整计算深度,以及(iii)在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出色,性能媲美高达120亿参数的当前最优大模型。通过受控实验,我们证明这一优势并非源于更大的知识容量,而是来自更强大的知识运用能力。此外,我们还发现,与显式思维链相比,LoopLM生成的推理过程与最终输出更为一致。我们希望这些结果能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可在以下网址获取:http://ouro-llm.github.io。
159
热度
许愿开讲
PDF
解读
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
2025年05月14日
大语言模型(LLM)的快速扩展揭示了当前硬件架构中的关键局限性,包括内存容量、计算效率和互连带宽方面的限制。DeepSeek-V3 在 2,048 个 NVIDIA H800 GPU 上进行训练,展示了如何通过硬件感知的模型协同设计有效应对这些挑战,从而实现大规模训练和推理的成本效益。本文深入分析了 DeepSeek-V3/R1 模型架构及其人工智能基础设施,重点介绍了多项创新技术,例如多头潜在注意力机制(MLA)以提高内存效率、专家混合(MoE)架构以优化计算与通信的权衡、FP8 混合精度训练以充分释放硬件潜力,以及多平面网络拓扑结构以最小化集群级别的网络开销。基于 DeepSeek-V3 开发过程中遇到的硬件瓶颈,我们与学术界和工业界的同行展开了更广泛的讨论,探讨了未来硬件发展的潜在方向,包括精确的低精度计算单元、向上扩展与向外扩展的融合,以及低延迟通信结构的创新。这些见解强调了硬件与模型协同设计在满足日益增长的人工智能工作负载需求中的关键作用,并为下一代人工智能系统的创新提供了实用的蓝图。
149
热度
许愿开讲
PDF
解读