我正在研究一个MYSQL表,其中我在过去两年收集的用户报告了数千(2万)个问题。现在我必须分开处理这个报道的问题, 我面临的问题是,许多报道的问题都很相似(我的意思是很多)。我想在表格中找到匹配。
我再次遇到的问题是,“报告的问题”是手动编写的,因此它们彼此不同。但是匹配可能包含一些常用词
所以我想知道是否有办法通过常用词在MYSQL表中找到匹配。
我在这里要做的是在不使用任何特定关键字的情况下重新启动类似的行(许多关键字中的那个行)
有没有工具可以做到这一点?有没有办法做到这一点? 我也对我的工作所有类型的PHP脚本开放,谢谢你提前
答案 0 :(得分:0)
我首先向具有Domain Knowledge的人询问他们绝对的前2或3个重复出现的问题。他们应该能够把它们卷起来。
请他们为您提供这些2或3个主要问题中使用的术语和同义词,否则您必须自己做。
克隆表并在其上放置FULLTEXT索引,看看全文搜索在识别匹配问题方面的效果如何。
如果这不会从语料库中产生相当好的结果,我会感到惊讶,但如果它们不够好,那么你可能想要漫步到NLP(自然语言处理)领域 - 更自然地适应那种情况是你可以用Python的工具集。
另一种选择是构建某种标记系统,但最好的依赖于人为干预,它们的成功在很大程度上取决于GUI的构建。