特殊字符训练NLP模型

时间:2019-05-21 15:06:07

标签: nlp luis qnamaker

我刚开始在机器人中使用NLP,在该机器人中,用户提出了一个由LUIS分类的问题,然后转发给QnAMaker以获取答案,而且我注意到由于西班牙语中带有重音字符和双重疑问,它在西班牙语中的表现异常分数 (?)。例如:

[1] ¿qué es NLP?
[2] que es NLP

如果我使用第一个模型训练我的模型,然后使用第二个模型进行测试,则该模型将不会以相同的意图来识别这两个模型。这是一种非常常用的西班牙语交流方式,因为有些人倾向于通过避免带重音符号和标点符号来节省时间。

我的问题是:

  • 我应该将模型中的所有发音归一化(去除重音, 标点符号等)?还是应该通过其他示例来训练它?
  • 我可以根据我的工作来训练NLP模型吗?

1 个答案:

答案 0 :(得分:2)

  

我应该规范模型中的所有话语(去除重音,   标点符号等)?还是应该通过其他示例来训练它?

这确实取决于您想要的内容,但是不必重复一堆工作,对模型中的所有话语进行规范化可能会更好。

然后,您可以在漫游器级别上将带有重音符号或被认为是“特殊”字符的字符/标准化字符替换掉,然后再将语音发送给LUIS以预测意图