以下哪一项是训练和调整摩西的更好的数据集?

时间:2014-02-13 09:43:05

标签: dataset machine-translation moses

我正在尝试使用摩西建立一个泰米尔语 - 英语翻译系统。 https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库的数据源。 dict文件长约70k行,其他文件大约2-3k,训练文件长约30k。如果有人暗示下列哪一项是更好的培训和调整选择,那会有所帮助吗?

目前,我正在使用培训文件进行培训,并使用测试文件进行调整。有更好的组合吗?

1 个答案:

答案 0 :(得分:0)

调整数据的大小通常远小于训练数据。我建议你将你拥有的数据合并到一个语料库中,然后从这个语料库中获取大约1000个句子进行调整,然后可以将3000个句子用于开发/测试。