建议基于文本内容的how-to文章列表

时间:2017-02-04 05:09:37

标签: search machine-learning text-classification microsoft-cognitive

我的客户和我的支持人员之间有20,000条消息(电子邮件和实时聊天的组合)。我也有我的产品的知识库。

通常,客户提出的问题非常简单,我的支持人员只需将它们指向正确的知识库文章。

为了节省我的支持人员时间,我想做的是向我的员工展示根据初始用户的支持请求可能相关的文章列表。这样他们就可以将链接复制并粘贴到帮助文章,而不是加载知识库并手动搜索文章。

我想知道我应该调查哪些解决方案。

我目前的想法是对现有数据进行分析并使用文本分类方法:

  • 对于每封邮件,请查看是否有包含指向文章的链接的回复
  • 如果是,请提取关键短语(微软认知服务)
  • TF-IDF?
  • 将每个操作方法视为属于关键短语集的“分类”
  • 使用一些有监督的机器学习,支持向量机可能预测哪个'分类,又名如何做文章'属于从新支持票据确定的关键短语。
  • 将新回复反馈到集合中以使系统更智能。

不确定我是否过度复杂化了。关于如何做到这一点的任何建议将不胜感激。

PS:简单地将“关键短语”倾销到我们知识库的搜索查询中的天真方法产生了不好的结果,因为帮助文章的内容通常不同于一个人在电子邮件或实时聊天中如何表达他们的问题。

1 个答案:

答案 0 :(得分:0)

与“垃圾邮件”分类器一致的简单分类器可能有效,除了每个常见问题解答都是一个功能,而不是垃圾邮件的单个功能分类器,而不是垃圾邮件。

大多数垃圾邮件分类器都以单词/短语字典开头。你已经开始用你天真的方法开始了。但是,与您的方法不同,垃圾邮件分类器不仅仅是文本搜索。基本上,在垃圾邮件分类器中,客户电子邮件中的每个单词都有一个权重,权重总和表示邮件是垃圾邮件还是垃圾邮件。现在,将其扩展为与常见问题解答一样多的功能。也就是说,FAQ1或FAQ-FAQ1,FAQ2或not-FAQ2等功能

由于您的支持人员可以轻松识别电子邮件所需的常见问题解答,因此使用监督学习算法是合适的。为了减少任何错误分类错误的影响,请考虑应用程序向支持人员提供客户的电子邮件,然后是计算机生成的响应,并且所有支持人员必须做的是批准响应或修改它。修改响应应该会在训练集中生成一个新条目。

支持向量机是实现机器学习的一种方法。但是,在使用更复杂的方法之前,您可能在初次识别问题的过程中过早地建议使用此解决方案,然后在可能的情况下获得一种简单的方法。毕竟,如果一个多功能的垃圾邮件分类器工作,为什么要投入更多时间和金钱用于其他有用的东西呢?

最后,根据您的系统,这是我想要的工作。