我正在使用seq2seq
创建一个聊天机器人。通常,在处理文本数据时,我们会删除所有标点符号和停用词,并将其输入Model
中。
所以我的问题不会影响Output
的可读性吗?
例如-用户在Chatbot窗口中输入了一个问题,然后按Enter键即可得到答案。现在,如果用户在没有标点符号和停用词的情况下得到答案,这会影响可读性吗?
答案 0 :(得分:1)
这实际上取决于您要创建哪种类型的 Chatbot 。通常,我们有两种类型的 ChatBots :
基于检索:您可以对模型进行大量配对训练。在推论阶段,您的模型找到与训练示例最相似的项目,并将其返回给用户。在这种情况下,我们在用户问题和我们的问题之间找到最相似的项目。然后返回最相似的问题给用户。因此,如果我们进行预处理,那么问题就不会影响可读性或其他方面。
基于世代:在基于世代的聊天机器人(如您提到的seq2seq
)中,聊天机器人的响应完全取决于您提供的培训内容。如果删除标点符号或停用词,是的,它会影响您的响应,并且您在 Chatbot 响应中看不到这些内容。
答案 1 :(得分:0)
course degrades readability many words
punctuation guide reader intended parsing
sentence put another way
有很多短语,句子和段落都需要标点符号来消除预期含义的例子。
仅删除“语法糖”是为了使用某些(大多数)技术来快速确定与经类似处理的文档的可能相关性。您的机器人设计必须将此过程与用户界面分开。无论您返回给用户什么,都应该使用人类语言,而不是您用于信息检索的内部单词汤。