- 简介大规模且高质量的图像-文本对数据集在开发高性能视觉-语言模型(VLM)中起着至关重要的作用。本文提出了WAON,这是一个大规模、高质量的日语图像-文本对数据集,包含约1.55亿个样本,采集自Common Crawl。我们的数据集构建流程采用了多种技术,包括过滤和去重,这些方法在先前的研究中已被证明是有效的。为了评估其有效性,我们还构建了WAON-Bench,一个经过人工整理的日语文化图像分类基准数据集,共包含374个类别。为评估本数据集的效果,我们使用WAON以及目前最广泛使用的视觉-语言数据集之一ReLAION的日语子集进行了实验。我们在两个数据集上对SigLIP2这一强大的多语言模型进行了微调。结果表明,与ReLAION相比,使用WAON微调的模型在WAON-Bench上的性能提升更为显著,并在所有评测基准上均实现了更高的准确率。此外,在WAON上微调的模型在多个日语文化相关的基准测试中达到了当前最优的性能水平。我们已将数据集、模型和代码公开发布于 https://speed1313.github.io/WAON。
- 图表
- 解决问题论文旨在解决高质量、大规模日文图像-文本对数据集的缺乏问题,以促进高性能日语视觉-语言模型(VLMs)的发展。当前大多数公开的视觉-语言数据集以英语为主,日语等其他语言的数据质量和数量均不足,限制了多语言VLM在日语场景尤其是日本文化理解任务上的表现。这是一个重要但尚未被充分解决的问题。
- 关键思路提出WAON——一个从Common Crawl中构建的大规模、高质量日文图像-文本对数据集,包含约1.55亿样本。通过有效的过滤和去重技术提升数据质量,并配套构建了一个名为WAON-Bench的手工标注日本文化图像分类基准,用于更准确地评估模型性能。关键创新在于针对日语特性优化数据处理流程,并建立首个专注于日本文化的细粒度评测基准。
- 其它亮点构建了目前最大规模的高质量日文图像-文本数据集WAON(1.55亿样本),并发布了专用评测集WAON-Bench(374个类别)。实验基于SigLIP2模型,在WAON和ReLAION日语子集上进行微调对比,结果显示WAON显著提升模型在日语文化理解任务上的性能,且在多个基准上达到SOTA。作者已开源数据集、模型和代码,极大促进后续研究。未来可探索该数据集在生成式VLM、跨模态检索等任务中的应用。
- 1. Flamingo: a Visual Language Model for Few-Shot Learning 2. PaLI: A Jointly-Scaled Multilingual Language-Image Model 3. X-LLM: Towards High-Quality Multilingual Language Models 4. CoCa: Contrastive Captioners are Image-Text Foundation Models 5. SigLIP: Scaling Vision with Imagen-only Pretraining


提问交流