Watson语言翻译器文档说:
“一个带有用于源语言和目标语言的并行句子的TMX文件。您可以在一个请求中上载多个parallel_corpus文件。所有上载的parallel_corpus文件加在一起,您的并行语料库必须包含至少5,000个并行句子才能成功训练。”
我有许多语料库文件,可用于训练我的翻译模型。我一直在寻找可能的方法来以编程方式执行此操作,但未成功。
我发现这样做的唯一方法是将它们手动合并到一个文件中。
是否可以通过API以并行语料库发送多个文件?
您可以使用Python或Curl提供示例吗?
谢谢。
唯一起作用的是手动聚合.TMX文件并仅发送一个文件。我还没有找到以parallel_corpora发送多个文件的任何方式
std
答案 0 :(得分:0)
我想我在here找到了解决方案
我尝试了这个,它似乎可以工作:
将open(corpus_fname1,'rb')设为parallel1,将open(corpus_fname2,'rb')设为parallel2:
custom_model = language_translation.create_model(
base_model_id = base_model_es_en,
name = model01_name,
parallel_corpus = parallel1,
parallel_corpus_filename2 = parallel2,
forced_glossary=None).get_result()