如何自动分类用户生成的内容

时间:2012-06-21 23:47:07

标签: php mysql automation

我有一个用户发帖的系统,这个帖子将包含一个标题,而帖子内容本身,内容将在20到3000个单词之间,由纯文本组成。

我还有一组超过700个类别,一些是顶级类别,其余是子类别。

当用户输入帖子内容时,需要提示他们最多5个相关类别,根据用户输入的内容自动选择。

最好的方法是什么,我正在使用PHP& MySQL,链接到任何库或代码示例都很有用。

1 个答案:

答案 0 :(得分:0)

用户视角

你不能只用php / mysql在同一页面的1步中完成。您的问题主要有两种选择。

  • 您还学习/使用一些客户端语言并实现它以进行搜索而无需更改页面。我不太了解它,所以我不能真正推荐任何具体内容,但this thread应该对你有帮助。

  • 您使用中间页。也就是说,用户发布它的内容,然后在发送之后你解析它并提供用户在新页面中选择的类别。这有一个问题,许多用户可能会在评论中按“发送”后关闭窗口,因为他们希望它能直接发送,好消息是它只使用php / mysql。

解析文本

我再一次不确定这是否是最有效的方法,但我会尝试这一点并继续测试,直到达到预期的结果:

首先,为每个类别创建几个关键字的列表。 4或5应该做的伎俩,但它在很大程度上取决于类别,文本和许多其他因素。

然后,创建一个包含10个元素的数组。 5将是该类别的id,5将是每个类别的“得分”。例如,您可以为找到的每个关键字设置1分。请记住最初将某些值设为对象,否则您将无法将其与之进行比较。

然后我会搜索文本中的每个类别关键字。如果您获得的分数高于之前获得的分数,请将最小分数替换为新分类。

回显脚本末尾剩下的5个类别。他们应该是5个更合适。但请记住,还有很多方法可以解决这个解析问题。