标签: machine-learning word2vec gensim information-retrieval doc2vec
我们公司有很多问题数据存储在数据库中。我们想要创建一个搜索引擎,以便人们可以检查以前处理问题的方式。我们无法使用任何第三方API,因为敏感数据,我们希望将其保存在内部。现在,方法如下:-
问题是结果根本没有用,问题是大多数数据是一个衬里和一些问题描述,还有拼写错误和堆栈痕迹等。
这是正确的方法还是我们应该改用其他方法? 目前,我们正在测试200K数据。 感谢您的帮助。