尝试使搜索引擎查找问题

时间:2018-06-26 11:39:53

标签: machine-learning word2vec gensim information-retrieval doc2vec

我们公司有很多问题数据存储在数据库中。我们想要创建一个搜索引擎,以便人们可以检查以前处理问题的方式。我们无法使用任何第三方API,因为敏感数据,我们希望将其保存在内部。现在,方法如下:-

  1. 清理数据,然后使用DOC2VEC将每个问题表示为矢量。
  2. 使用某个距离度量标准来查找最近的5个问题。

问题是结果根本没有用,问题是大多数数据是一个衬里和一些问题描述,还有拼写错误和堆栈痕迹等。

这是正确的方法还是我们应该改用其他方法? 目前,我们正在测试200K数据。 感谢您的帮助。

0 个答案:

没有答案