过去4周似乎是我的噩梦,
我无法在django / python中找到一个“相关帖子”应用程序的解决方案,在该应用程序中,用户输入并提供与原始输入密切匹配的相关帖子。我尝试过使用类似的陈述,但似乎它们不够灵敏。
我也需要考虑拼写错误。
有没有一个图书馆可以帮助我免除我的痛苦和痛苦?
答案 0 :(得分:2)
好吧,我想有几种不同的方法来规范化用户输入以产生理想的结果(尽管我不确定它们存在多大程度的库)。获得相关帖子的最简单方法之一是比较该帖子上的标签(授予您的帖子有标签)。如果您想转到另一条路线,我会采取以下步骤:从主题中移除stop words,在剩余部分使用某种stemmer,最后将剩余的字词视为“标记”进行比较与其他帖子。为了提高效率,在所有当前帖子上以批处理方式运行这些步骤并存储生成的“标签”可能是个好主意。就拼写错误而言,我确信存在大量的拼写纠错库(我在几秒钟之后发现了this one)。