我正在使用Microsoft Translator Text for Japanese(JA)to English(EN)translation中的训练集创建自定义模型。应该将训练数据标记化,并且所有小写字母都可取吗?
日语中的引号字符(「」和『『』)与英语中的引号字符不同。在JA培训数据中,这些数据应被标记(用空格分隔)吗?在并行的EN培训数据中,应使用EN引号(“”)还是JA引号?
除此之外,是否还需要进行其他预处理,例如将文本转换为所有小写字母?部署时模型返回的文本大小写无关紧要。
答案 0 :(得分:0)
保留培训材料,就像将其呈现给人类读者一样,并保留外壳和标点符号不变。外壳和标点符号在翻译中很重要,它是引擎接收的一个相关信号。没有理由应用您自己的令牌化,这会干扰系统的令牌化。 最好的培训材料是句子或句段对齐,就像从TM导出时将其放在TMX或XLIFF中一样。