dataset - 以下哪一项是训练和调整摩西的更好的数据集？

以下哪一项是训练和调整摩西的更好的数据集？

时间：2014-02-13 09:43:05

标签： dataset machine-translation moses

我正在尝试使用摩西建立一个泰米尔语 - 英语翻译系统。 https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en是我的并行语料库的数据源。 dict文件长约70k行，其他文件大约2-3k，训练文件长约30k。如果有人暗示下列哪一项是更好的培训和调整选择，那会有所帮助吗？

目前，我正在使用培训文件进行培训，并使用测试文件进行调整。有更好的组合吗？

1 个答案:

答案 0 :(得分：0)

调整数据的大小通常远小于训练数据。我建议你将你拥有的数据合并到一个语料库中，然后从这个语料库中获取大约1000个句子进行调整，然后可以将3000个句子用于开发/测试。

哪个iPhone控件会更好？
做什么是更好的方式
哪种方式会更好？
对于数组的语法哪个更好？
数据库设计 - 哪个更好？
哪个查询会更好查询？
哪个查询更适合分页？
以下哪一项是训练和调整摩西的更好的数据集？
哪种分类器对扫描图像更好？
哪种算法更适合预测给定的数据集？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？