我的目标是为金融领域创建自定义翻译引擎,语言对CHT-EN和CHS-EN。我有各自的词典和对齐的片段,可以导入自定义引擎并训练引擎。
如果我正确理解文档(https://www.ibm.com/watson/developercloud/doc/language-translation/),我只能构建在现有域和语言对之上。因此,对于中文 - 英文,我只能选择专利域并导入我自己的词典和语料库,然后重新训练。不确定,如果这是有道理的,还不清楚我们是在谈论繁体中文还是简体中文。我首先需要传统的中文服务,后来需要简体中文。
另一种选择是建立在财经新闻领域之上,但新闻不适用于中文 - 英文。
我试图找出如何继续并欣赏任何指导的最佳做法。
谢谢!
答案 0 :(得分:0)
要创建模型,您可以使用具有高频率或高置信度短语翻译的词汇表或平行语料库(TMX文件)。
正如@Nathan所说,如果您使用zh-en-patent
作为base_model_id
,您将使用unihan支持繁体中文和简体中文。 zh-en-patent
是唯一可以使用今天将中文翻译成英文的模型。
以下是有关如何使用IBM Watson Language Translator service创建自定义翻译模型的指南。