按关键字分类的更智能方法?

时间:2013-01-29 20:55:22

标签: database data-mining categorization

我们的网站包含用户生成的内容,用户可以使用主题标签对其内容进行分类。为了更容易搜索内容,我们正在考虑创建"兴趣"类别如下:

Sex, Hobbies, Current Events, etc.  

实现此目标的一种方法是将关键字与每个兴趣类别相关联。因此,如果用户点击了兴趣爱好,系统会搜索我们与爱好相关联的关键字,如:

Hobbies -> cars, cooking, reading, etc.  

然而,这种方法似乎有限,因为用户可以发布一个hotrod的图片,上面写着" sexy"在身体和我们的系统中,单词" sexy"与两个兴趣类别相关:"性别"和"时尚&美容&#34 ;.

有关如何使此方法更智能的任何建议?或者,关于公司如何实施这样的建议/建议?

1 个答案:

答案 0 :(得分:2)

您可能对类别进行加权。找到所有匹配的单词,并为所有类别分配值,如下所示:

  • 为每个无疑属于该类别的单词添加3
  • 为每个可能属于更多类别的单词添加1

这是一种有偏见的加权(对于独特的单词),这样你就可以更好地决定图片所属的位置。

此外,您可以构建一个 - 不断变化的 - 权重矩阵,该词与某个类别的相关程度。频繁的词语不太重要(因为每个人都在使用它们)。

此外,根据分类文本,您可以自动扩展单词列表,并自动对其进行分类。例如,如果新的游戏名称出现在单词列表中(称之为'abc'),您会注意到'abc'出现在业余爱好类别中的很多文本中,而在其他任何地方。所以,你可以将这个词与这个类别联系起来。

构建自动学习系统是一个非常令人兴奋的领域!