统计机器使用MOSES从印地语翻译成英语

时间:2014-12-27 17:01:59

标签: hindi machine-translation moses

我需要使用MOSES创建一个印地语到英语的翻译系统。我有一个包含大约10000个印地语句子和相应英语翻译的并行语料库。我按照Baseline system creation page中描述的方法进行操作。但是,就在第一阶段,当我想要标记我的印地语语料库并试图执行

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

,令牌器给了我以下输出:

Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

我甚至尝试使用'hin',但仍然无法识别语言。任何人都可以告诉你制作翻译系统的正确方法。

1 个答案:

答案 0 :(得分:4)

摩西不支持印地语进行标记化,tokenizer.perl使用nonbreaking_prefix.*文件(来自https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516

Moses提供的非破坏前缀的语言包括:

  • ca:加泰罗尼亚语
  • cs:捷克语
  • de:德语
  • el:希腊语
  • zh:英语
  • es:西班牙语
  • fi:芬兰语
  • fr:法语
  • hu:匈牙利语
  • 是:冰岛语
  • it:意大利语
  • lv:拉脱维亚语
  • nl:荷兰语
  • pl:波兰语
  • pt:葡萄牙语
  • ro:罗马尼亚语
  • ru:俄语
  • sk:斯洛伐克
  • sl:斯洛文尼亚
  • sv:瑞典语
  • ta:泰米尔语

来自https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes


然而,所有的希望都没有丢失,你可以在使用摩西训练机器翻译模型之前用其他标记器对你的文本进行标记化,尝试谷歌搜索&#34;印地文标记符&#34;,它们周围有数吨。