Meta指出,闽南语是华裔群众广泛使用的语言,但缺少标准书写文字系统。通过全新的AI技术语音翻译系统,可以让闽南语使用者与英文使用者口说对话。
为开发这个只有语音的全新翻译系统,Meta AI研究人员必须克服许多来自传统机器翻译系统的挑战,包括资料搜集、模型设计,以及准确度评估。
Meta表示,著手打造闽南语翻译系统时,面临的一个重大障碍就是是否能够搜集到足够的资料。闽南语是所谓的资源匮乏语言,这意味著与西班牙文或英文等语言相比,该语言尚未有足够的训练资料。此外,将英语翻译成闽南语的翻译人员相对来说很少,因此更难以搜集资料并加上注解来训练模型。 于是利用中文作为中间语言,先将英语(或闽南语)语音翻译成中文文字,接著再翻译成闽南语(或英语),然后新增至训练资料中。此方法利用了资源充足的相似语言的资料,借此大幅改善了模型成效。 另一个产生训练资料的作法是语音探勘。我们使用预先训练好的语音编码器,便能透过编码方式将闽南语语音嵌入内容加入到其他语言的相同语意空间中,而无须取得闽南语的书写文字。闽南语语音可以和拥有相似语意嵌入内容的英语语音和文字配对。我们接著从文字来合成英文语音,产生平行的闽南语和英语语音。 全新的模型作法 许多语音翻译系统依赖转译内容,或依赖语音转文字系统。但由于主要以口语表达的语言并没有标准书写文字形式,因此我们就无法将翻译的文字制作成翻译内容输出。因此,我们聚焦于语音转语音翻译。 我们使用语音转单元翻译(speech-to-unit translation,S2UT)系统,直接在先前由 Meta 开创的路径中,将输入的语音翻译成一系列声学单元,然后从这些单元中生成波形。此外,我们针对二次解码机制采用 UnitY,让第一阶段的解码器产生相关语言(中文)的文字,然后让第二阶段的解码器制作单元。
目前语音翻译系统通常会使用称为ASR-BLEU的衡量指标来评估,首先需使用自动语音识别系统(ASR)将翻译后的语音转译成文字,然后将转译后的文字与人工翻译的文字比较,以计算BLEU分数(标准机器翻译衡量指标)。 但评估主要以口语表达的语言(例如闽南语)时,评估语音翻译的挑战之一就是没有标准的书写文字系统。为启动自动评估程序,Meta开发了称为Tâi-lô的系统,将闽南语语音转译成标准化的拼音符号。这项技术让我们能以音节为单位计算BLEU分数,并更容易比较不同方法下的翻译品质。 同时,Meta也根据名为Taiwanese Across Taiwan的闽南语语音语料库,建立第一个闽南语与英语双向的语音翻译基准资料集。将开放此基准资料集的原始码,以鼓励其他研究人员合作进行闽南语语音翻译,并一同在该领域中取得进一步进展。