microsoft-translator - 预处理Microsoft Custom Translator Text JA-> EN的培训数据？（令牌化，小写）

时间：2019-05-28 16:51:16

标签： microsoft-translator

我正在使用Microsoft Translator Text for Japanese（JA）to English（EN）translation中的训练集创建自定义模型。应该将训练数据标记化，并且所有小写字母都可取吗？

日语中的引号字符（「」和『『』）与英语中的引号字符不同。在JA培训数据中，这些数据应被标记（用空格分隔）吗？在并行的EN培训数据中，应使用EN引号（“”）还是JA引号？

除此之外，是否还需要进行其他预处理，例如将文本转换为所有小写字母？部署时模型返回的文本大小写无关紧要。

答案 0 :(得分：0)

保留培训材料，就像将其呈现给人类读者一样，并保留外壳和标点符号不变。外壳和标点符号在翻译中很重要，它是引擎接收的一个相关信号。没有理由应用您自己的令牌化，这会干扰系统的令牌化。最好的培训材料是句子或句段对齐，就像从TM导出时将其放在TMX或XLIFF中一样。