首先,对不起我的英语,并感谢您的耐心等候。
我正在尝试使用对话引擎创建一个聊天机器人分类器。 当前管道如下所示:
Raw_user_input -> preprocessing -> classification -> dialog_engine -> bot_answer
对话框引擎根据对话框状态重新计算分类器分数。
问题是我在不同的班级都有类似的短语。 例如:
如果漫游器询问:Can you provide more information about yourself?
用户的答案:I can
//表示“是”。也可以回答“是”
但是如果漫游器询问:Do you want to join our ...<whatever>
用户的回答:I do
//也可以使用“是”,但是火车中不会出现“我可以”。
因此,我在“ provide_info_yes”,“ provide_info_no”,“ join_yes”,“ join_no”意图中有一些常用短语。
关于分类,用户回答是“是”,我得到了以下结果:
intents: [other_int1, other_int2, provide_info_yes, provide_info_no, join_yes, join_no]
scores: [0.001, 0.003, 0.21, 0.03, 0.75, 0.006]
(分数不是真实的,但是代表问题)
我为'provide_info_yes'得到了0.21,为'join_yes'得到了0.75,但是预期结果是0.5 / 0.5(更少或更多),并且对话框引擎将根据对话框状态重新计算它们(如果机器人询问有关提供信息的分数,则得分为80/20)
目前,我正在使用sklrean的SVC分类器和TF_IDF转换器。在Wikipedia的转储中了解到TF_IDF。我尝试使用KNN分类器,多数民众赞成在我得到预期结果(50/50)的情况下,但是我不想使用它,因为我不喜欢它在其他情况下的行为。
能否请您给我一些有关解决此问题的技巧?而且我不确定我是否做对了所有事情。因此,您还能提供一些有关如何以正确的方式做我想做的提示吗?