如何在Python的Watson Language Translator中使用多个语料库文件作为并行语料库

时间:2019-05-28 11:26:26

标签: python ibm-cloud customization ibm-watson language-translation

Watson语言翻译器文档说:

“一个带有用于源语言和目标语言的并行句子的TMX文件。您可以在一个请求中上载多个parallel_corpus文件。所有上载的parallel_corpus文件加在一起,您的并行语料库必须包含至少5,000个并行句子才能成功训练。”

我有许多语料库文件,可用于训练我的翻译模型。我一直在寻找可能的方法来以编程方式执行此操作,但未成功。

我发现这样做的唯一方法是将它们手动合并到一个文件中。

是否可以通过API以并行语料库发送多个文件?

您可以使用Python或Curl提供示例吗?

谢谢。

唯一起作用的是手动聚合.TMX文件并仅发送一个文件。我还没有找到以parallel_corpora发送多个文件的任何方式

std

1 个答案:

答案 0 :(得分:0)

我想我在here找到了解决方案

我尝试了这个,它似乎可以工作:

将open(corpus_fname1,'rb')设为parallel1,将open(corpus_fname2,'rb')设为parallel2:

 custom_model = language_translation.create_model(
     base_model_id = base_model_es_en,
     name = model01_name,
     parallel_corpus = parallel1,
     parallel_corpus_filename2 = parallel2,
     forced_glossary=None).get_result()