如果我有一个论坛使用标签对帖子进行分类,是否可以在创建帖子后根据内容和标题自动添加标签?
非常感谢
答案 0 :(得分:3)
最简单的方法是拥有一个已知标签的表格。迭代帖子中的每个单词,如果单词在标签表中,则将其添加到列表中。为了使这更有效,您可以将标记存储在其显示和词干版本中(例如,算法和算法)。然后将帖子中的词干词与词干标签名称进行比较。请参阅Porter的词干算法,以获得一种简单的方法(英语单词)。
更有效的解决方案是使用类似TF-IDF的东西并将矢量与每个标签相关联。为新帖子创建一个向量,并使用余弦相似度将其与每个标记向量进行比较。无论哪个标签高于某个阈值都会被添加到帖子中。我从未将它用于自动标记,但根据我的经验,它在处理非垃圾数据时是一种非常有效的匹配工具。 (即,人们不是试图欺骗或欺骗系统。)
这两种方法都假设你已经建立了某种标记字典来启动它。您可以通过查看帖子中经常使用的不常见单词(需要频率表)来猜测标签名称。
答案 1 :(得分:1)
答案 2 :(得分:0)
有很多方法可以解决这个问题。正如konforce建议的那样,简单的关键字匹配或TF-IDF是可行的选择。其他包括: