我刚开始在机器人中使用NLP,在该机器人中,用户提出了一个由LUIS分类的问题,然后转发给QnAMaker以获取答案,而且我注意到由于西班牙语中带有重音字符和双重疑问,它在西班牙语中的表现异常分数 (?)。例如:
[1] ¿qué es NLP?
[2] que es NLP
如果我使用第一个模型训练我的模型,然后使用第二个模型进行测试,则该模型将不会以相同的意图来识别这两个模型。这是一种非常常用的西班牙语交流方式,因为有些人倾向于通过避免带重音符号和标点符号来节省时间。
我的问题是:
答案 0 :(得分:2)
我应该规范模型中的所有话语(去除重音, 标点符号等)?还是应该通过其他示例来训练它?
这确实取决于您想要的内容,但是不必重复一堆工作,对模型中的所有话语进行规范化可能会更好。
然后,您可以在漫游器级别上将带有重音符号或被认为是“特殊”字符的字符/标准化字符替换掉,然后再将语音发送给LUIS以预测意图