Question

我刚开始在机器人中使用NLP，在该机器人中，用户提出了一个由LUIS分类的问题，然后转发给QnAMaker以获取答案，而且我注意到由于西班牙语中带有重音字符和双重疑问，它在西班牙语中的表现异常分数（？）。例如：

[1] ¿qué es NLP?
[2] que es NLP

如果我使用第一个模型训练我的模型，然后使用第二个模型进行测试，则该模型将不会以相同的意图来识别这两个模型。这是一种非常常用的西班牙语交流方式，因为有些人倾向于通过避免带重音符号和标点符号来节省时间。

我的问题是：

Answer 1

我应该规范模型中的所有话语（去除重音，标点符号等）？还是应该通过其他示例来训练它？

这确实取决于您想要的内容，但是不必重复一堆工作，对模型中的所有话语进行规范化可能会更好。

然后，您可以在漫游器级别上将带有重音符号或被认为是“特殊”字符的字符/标准化字符替换掉，然后再将语音发送给LUIS以预测意图