论坛帖子的贝叶斯过滤

时间:2010-02-17 10:17:51

标签: filter classification ranking bayesian forum

有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只显示有趣的帖子?贝叶斯过滤器似乎适用于检测垃圾邮件。实施贝叶斯过滤器是否可以为用户过滤论坛帖子?

2 个答案:

答案 0 :(得分:1)

尝试通过贝叶斯分类器或任何其他自动分类系统对有趣/好的论坛帖子进行分类的困难在于帖子的单词和/或单词结构与其相对价值或效用之间可能缺乏相关性。

垃圾邮件过滤器的工作主要是因为单词选择和结构在整体上是系统性的不寻常:垃圾邮件发送者正在尝试推广特定的产品,服务等。尽管垃圾邮件发送者可以尝试增加,但可以学习合理的相关性和模式。难以通过各种技术这样做。

这样的词/结构模式不太可能存在于好的和不好的论坛帖子中。但是,有一种替代方法可以重构可能有用的问题:

  1. 允许用户将帖子分类为好或坏或按照您的描述对其进行排名。
  2. 使用贝叶斯分类器或其他一些统计推断方法来识别与整个社区的排名行为具有最高相关性的论坛用户,即具有最佳品味并且良好的用户关于整个社区如何查看内容的预测因子。
  3. 使用步骤#2中确定的预测良好用户池中的论坛帖子排名来过滤论坛帖子。这要求一个或多个此类用户实际上在某个时刻对新内容进行排名,因此该池需要具有一定的大小,并且包括常规用户以使这样的过滤系统有用。
  4. 这个分类系统需要定期重建,因为用户群体可能是动态的,兴趣不断变化等等。
  5. 我提出的方法实际上对您的问题有多好处取决于论坛的性质,用户对内容排名的意愿,以及他们如何看待发布的价值有多少共同点内容。此外,用户社区的整体规模可能是一个因素:如果它太小,可能没有足够的数据可供使用;如果太大,您可能会遇到针对排名数据运行分类器推理方法的计算扩展问题。

答案 1 :(得分:0)

协作过滤不会更好吗?