Question

只是好奇人们通常如何处理机器翻译中的标点符号。

例如，从语言A到B我们可能有：

A: a b c d e f g
B: x y z, u v w

我想知道我们如何处理B语言中的逗号？如果我们使用seq2seq模型，我们是否应该删除它，或者我们是否还要为它生成嵌入并以与处理其他单词相同的方式处理逗号？

如果我没有遗漏任何内容，我认为没有任何文件明确谈论它。

Answer 1

Seq2Seq的一个很好的应用是机器翻译。

在英语 - >德语的情况下，我们会看到需要额外逗号的德语句子，例如

EN：我开枪打死了他，因为上校告诉了我。

DE： Ich habe auf ihn geschossen，weil es der Oberst mir befohlen hatte。

一个好的模型会自动学习weil之前的第一个子句（因为）需要逗号是语法的。

不需要事先做额外的预处理。