Meta CLIP 2: A Worldwide Scaling Recipe

2025年07月29日
  • 简介
    对比语言-图像预训练(CLIP)是一种流行的基础模型,支持从零样本分类、检索到多模态大语言模型(MLLMs)的编码器等多种任务。尽管 CLIP 已经成功地在数十亿规模的英文世界图像-文本对上进行了训练,但要进一步将 CLIP 的训练扩展到全球网络数据上仍然面临挑战:(1)目前没有合适的数据筛选方法来处理非英文世界的数据点;(2)现有的多语言 CLIP 在英文任务上的表现不如其仅使用英文训练的版本,这被称为“多语言的诅咒”,在大语言模型中也较为常见。在此,我们提出了 Meta CLIP 2,这是首个基于全球网络规模图像-文本对从头训练 CLIP 的方法。为了使我们的发现具有普适性,我们通过尽可能微小的改动进行了严格的消融实验,以应对上述挑战,并提出了一种能够让英文与非英文世界数据相互受益的训练方法。在零样本 ImageNet 分类任务中,Meta CLIP 2 的 ViT-H/14 模型超越了仅使用英文数据训练的版本 0.8%,也超过了 mSigLIP 0.7%。令人意外的是,它还在多项多语言基准测试中不依赖系统级的混淆因素(例如翻译、定制架构改动)的情况下达到了新的最佳性能,例如在 CVQA 数据集上达到 57.4%,在 Babel-ImageNet 上达到 50.2%,在 XM3600 图像到文本检索任务上达到 64.3%。
  • 图表
  • 解决问题
    论文旨在解决如何在没有系统级复杂调整(如翻译或定制架构)的情况下,训练一个能够有效处理多语言图像-文本数据的CLIP模型,同时保持甚至提升其在英文任务上的性能。这涉及两个主要挑战:(1)缺乏有效处理非英语数据的方法;(2)现有多语言CLIP模型在英文任务上的性能劣于英文专用模型。
  • 关键思路
    论文提出Meta CLIP 2,通过一种新的训练策略,从全球范围内的图像-文本对中进行端到端训练,实现英文与非英文数据的互惠学习。关键创新在于无需额外翻译或架构修改即可提升多语言性能,同时保持或超越英文专用模型的表现。
  • 其它亮点
    1. Meta CLIP 2在多个多语言基准测试中取得新的SOTA表现,包括CVQA(57.4%)、Babel-ImageNet(50.2%)和XM3600图像到文本检索(64.3%)。 2. Meta CLIP 2 ViT-H/14在零样本ImageNet分类上超越英文专用模型0.8%,超越mSigLIP 0.7%。 3. 实验设计强调最小改动的消融研究,验证了多语言训练对英文性能的正向作用。 4. 论文未提及代码开源情况,但强调数据来自全球网络,具有广泛性。
  • 相关研究
    1. mSigLIP: Multilingual SigLIP for Scalable Vision-Language Learning 2. LaViLa: Labeled and Unlabeled Video and Language Training 3. X-CLIP: Cross-lingual CLIP for Multilingual Vision-Language Pre-training 4. Florence: A New Vision Language Model from Microsoft 5. ALIGN: Scaling Vision-Language Pretraining to Larger Datasets
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论