重复的句子对如何影响平行语料库和翻译模型?

时间:2019-06-21 11:02:09

标签: translation data-science machine-translation neural-mt

我正在使用低资源语言对,可用的并行语料库非常嘈杂。在清理数据时,我发现语料库中有很多重复的句子对。句子在各自的文件中正确对齐,但是有重复。我从删除重复开始,但是开始考虑这种重复产生的影响。

那么,此类数据对NMT模型有什么样的影响?我应该删除重复项(我打算这样做)吗?

我正在使用Transformer模型(请注意,Vaswani等人都需要注意)。我大约有十万个平行句子。

我希望模型不会改变,因为它将再次看到相同的句子。但是我也认为该模型可能会更好一些?

0 个答案:

没有答案