- 简介低资源语言由于数字化、结构化语言数据严重匮乏,在自然语言处理领域面临独特挑战。为弥补这一空白,加纳国家语言处理倡议(GhanaNLP)项目开发并整理了涵盖特维语(Twi)、芳蒂语(Fante)、埃维语(Ewe)、加语(Ga)和库萨尔语(Kusaal)五种语言的平行句对语料库,共计41,513组句对;这些语言在加纳境内广泛使用,却长期在数字空间中处于代表性不足的状态。每套语料均由本地语言与英语之间经过精细对齐的句子对构成。所有数据均由专业人工完成采集、翻译与标注,并辅以标准化的结构性元数据进行增强,以确保数据的一致性与可用性。这些语料库旨在支持科研、教育及商业应用,包括机器翻译、语音技术以及语言保护工作。本文详述了该语料库的构建方法、数据结构、预期应用场景与评估方式,并介绍了其在真实世界中的落地实践,例如已集成于“卡雅”(Khaya)人工智能翻译引擎之中。总体而言,本研究通过赋能包容、可及的非洲语言技术,为推动人工智能的普惠化发展作出了实质性贡献。
-
- 图表
- 解决问题低资源非洲语言(如Twi、Fante、Ewe、Ga、Kusaal)在NLP领域严重缺乏高质量、人工校验的平行语料,导致机器翻译、语音技术及语言保护等应用难以落地;该问题长期存在,虽受关注但系统性、规模化、可复现的语料建设仍属稀缺。
- 关键思路通过专业化人机协同流程——由母语为本的本地语言专家主导采集、双向翻译、对齐与元数据标注——构建首批覆盖5种加纳语言、严格质量控制的41,513句对级平行语料库;强调‘以社区为中心’的数据主权实践,而非依赖自动爬取或零样本迁移,为低资源语言提供可即插即用的基础数据基建。
- 其它亮点数据全部开源(CC BY-NC-SA 4.0),含结构化JSONL格式、ISO 639-3语言码、句子级对齐置信度标签及翻译者资质元信息;已实证部署于Khaya AI翻译引擎(支持Twi↔English实时翻译),并在加纳教育部试点辅助教学;未报告传统BLEU指标,而是采用专业译员盲测+功能性任务评估(如指令理解准确率);未来需拓展语音对齐、领域多样化(医疗/法律)及跨语言迁移泛化研究。
- ‘Masakhane: Decolonial NLP for African Languages’ (ACL 2021); ‘Building the First Large-Scale Swahili MT Dataset’ (EMNLP 2022); ‘NaijaSenti: A Sentiment Lexicon for Nigerian Pidgin’ (LREC 2022); ‘AfriBERTa: Pretraining BERT for African Languages’ (arXiv:2105.02842); ‘The African Language Treebank Project’ (COLING 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流