GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages

向作者提问

NEW

简介

低资源语言由于数字化、结构化语言数据严重匮乏，在自然语言处理领域面临独特挑战。为弥补这一空白，加纳国家语言处理倡议（GhanaNLP）项目开发并整理了涵盖特维语（Twi）、芳蒂语（Fante）、埃维语（Ewe）、加语（Ga）和库萨尔语（Kusaal）五种语言的平行句对语料库，共计41,513组句对；这些语言在加纳境内广泛使用，却长期在数字空间中处于代表性不足的状态。每套语料均由本地语言与英语之间经过精细对齐的句子对构成。所有数据均由专业人工完成采集、翻译与标注，并辅以标准化的结构性元数据进行增强，以确保数据的一致性与可用性。这些语料库旨在支持科研、教育及商业应用，包括机器翻译、语音技术以及语言保护工作。本文详述了该语料库的构建方法、数据结构、预期应用场景与评估方式，并介绍了其在真实世界中的落地实践，例如已集成于“卡雅”（Khaya）人工智能翻译引擎之中。总体而言，本研究通过赋能包容、可及的非洲语言技术，为推动人工智能的普惠化发展作出了实质性贡献。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

低资源非洲语言（如Twi、Fante、Ewe、Ga、Kusaal）在NLP领域严重缺乏高质量、人工校验的平行语料，导致机器翻译、语音技术及语言保护等应用难以落地；该问题长期存在，虽受关注但系统性、规模化、可复现的语料建设仍属稀缺。
关键思路

通过专业化人机协同流程——由母语为本的本地语言专家主导采集、双向翻译、对齐与元数据标注——构建首批覆盖5种加纳语言、严格质量控制的41,513句对级平行语料库；强调‘以社区为中心’的数据主权实践，而非依赖自动爬取或零样本迁移，为低资源语言提供可即插即用的基础数据基建。
其它亮点

数据全部开源（CC BY-NC-SA 4.0），含结构化JSONL格式、ISO 639-3语言码、句子级对齐置信度标签及翻译者资质元信息；已实证部署于Khaya AI翻译引擎（支持Twi↔English实时翻译），并在加纳教育部试点辅助教学；未报告传统BLEU指标，而是采用专业译员盲测+功能性任务评估（如指令理解准确率）；未来需拓展语音对齐、领域多样化（医疗/法律）及跨语言迁移泛化研究。
相关研究

‘Masakhane: Decolonial NLP for African Languages’ (ACL 2021); ‘Building the First Large-Scale Swahili MT Dataset’ (EMNLP 2022); ‘NaijaSenti: A Sentiment Lexicon for Nigerian Pidgin’ (LREC 2022); ‘AfriBERTa: Pretraining BERT for African Languages’ (arXiv:2105.02842); ‘The African Language Treebank Project’ (COLING 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问