Question

我们的网站包含用户生成的内容，用户可以使用主题标签对其内容进行分类。为了更容易搜索内容，我们正在考虑创建＆＃34;兴趣＆＃34;类别如下：

Sex, Hobbies, Current Events, etc.

实现此目标的一种方法是将关键字与每个兴趣类别相关联。因此，如果用户点击了兴趣爱好，系统会搜索我们与爱好相关联的关键字，如：

Hobbies -> cars, cooking, reading, etc.

然而，这种方法似乎有限，因为用户可以发布一个hotrod的图片，上面写着＆＃34; sexy＆＃34;在身体和我们的系统中，单词＆＃34; sexy＆＃34;与两个兴趣类别相关：＆＃34;性别＆＃34;和＆＃34;时尚＆amp;美容＆＃34 ;.

有关如何使此方法更智能的任何建议？或者，关于公司如何实施这样的建议/建议？

Answer 1

您可能对类别进行加权。找到所有匹配的单词，并为所有类别分配值，如下所示：

这是一种有偏见的加权（对于独特的单词），这样你就可以更好地决定图片所属的位置。

此外，您可以构建一个 - 不断变化的 - 权重矩阵，该词与某个类别的相关程度。频繁的词语不太重要（因为每个人都在使用它们）。

此外，根据分类文本，您可以自动扩展单词列表，并自动对其进行分类。例如，如果新的游戏名称出现在单词列表中（称之为'abc'），您会注意到'abc'出现在业余爱好类别中的很多文本中，而在其他任何地方。所以，你可以将这个词与这个类别联系起来。

构建自动学习系统是一个非常令人兴奋的领域！