是否可以在论坛或论坛中对帖子进行自动分类?

时间:2011-03-22 06:00:01

标签: php mysql algorithm forum webbbs

如果我有一个论坛使用标签对帖子进行分类,是否可以在创建帖子后根据内容和标题自动添加标签?

非常感谢

3 个答案:

答案 0 :(得分:3)

最简单的方法是拥有一个已知标签的表格。迭代帖子中的每个单词,如果单词在标签表中,则将其添加到列表中。为了使这更有效,您可以将标记存储在其显示和词干版本中(例如,算法和算法)。然后将帖子中的词干词与词干标签名称进行比较。请参阅Porter的词干算法,以获得一种简单的方法(英语单词)。

更有效的解决方案是使用类似TF-IDF的东西并将矢量与每个标签相关联。为新帖子创建一个向量,并使用余弦相似度将其与每个标记向量进行比较。无论哪个标签高于某个阈值都会被添加到帖子中。我从未将它用于自动标记,但根据我的经验,它在处理非垃圾数据时是一种非常有效的匹配工具。 (即,人们不是试图欺骗或欺骗系统。)

这两种方法都假设你已经建立了某种标记字典来启动它。您可以通过查看帖子中经常使用的不常见单词(需要频率表)来猜测标签名称。

答案 1 :(得分:1)

答案 2 :(得分:0)

有很多方法可以解决这个问题。正如konforce建议的那样,简单的关键字匹配或TF-IDF是可行的选择。其他包括:

  • 使用Yahoo的term extraction网络服务从文本中提取重要字词。
  • 使用Google Prediction API。在已标记的帖子的语料库中训练它,然后让它预测新帖子的标签。