Question

Watson语言翻译器文档说：

“一个带有用于源语言和目标语言的并行句子的TMX文件。您可以在一个请求中上载多个parallel_corpus文件。所有上载的parallel_corpus文件加在一起，您的并行语料库必须包含至少5,000个并行句子才能成功训练。”

我有许多语料库文件，可用于训练我的翻译模型。我一直在寻找可能的方法来以编程方式执行此操作，但未成功。

我发现这样做的唯一方法是将它们手动合并到一个文件中。

是否可以通过API以并行语料库发送多个文件？

您可以使用Python或Curl提供示例吗？

谢谢。

唯一起作用的是手动聚合.TMX文件并仅发送一个文件。我还没有找到以parallel_corpora发送多个文件的任何方式

std

Answer 1

我想我在here找到了解决方案

我尝试了这个，它似乎可以工作：

将open（corpus_fname1，'rb'）设为parallel1，将open（corpus_fname2，'rb'）设为parallel2：

 custom_model = language_translation.create_model(
     base_model_id = base_model_es_en,
     name = model01_name,
     parallel_corpus = parallel1,
     parallel_corpus_filename2 = parallel2,
     forced_glossary=None).get_result()

如何在Python的Watson Language Translator中使用多个语料库文件作为并行语料库

1 个答案: