php - 使用PHP确定用户文本数据库的趋势

使用PHP确定用户文本数据库的趋势

时间：2011-06-25 16:09:31

标签： php

我在这里阅读了很多关于计算文本趋势的算法和通用方法的帖子，但是我需要一个实用的，简单的例子来说明如何使用PHP来实现这一点。

One post that was more helpful than the rest建议对每个文本进行规范化，然后根据单词将每个文本分解为一个数组（在归档链接，用户名等之后），从每个消息构建每个单词的大量数组，然后使用{{3}找出哪些词最常见。这似乎可行，但我不知道这是否是最好的方式。例如，似乎赞成单词结果而不是短语（“Barack”和“Obama”而不是“Barack Obama”）。

还有比这更好的方法吗？我可能会使用的实际示例或预先存在的解决方案（脚本或类）？谢谢！

1 个答案:

答案 0 :(得分：0)

如果没有收集大量关于单词和短语的数据，您要求的内容很难自动完成。

除非你愿意花费大量的时间，金钱和持续的资源来实现自动化，否则我建议你手动创建一个应该算作短语的单词列表（就像Barack和Obama相邻一样），将其提取为巴拉克奥巴马），或者只是忘记整个事情并按照帖子解释的方式进行。

可能有外部服务可以按照您想要的方式解析数据，但毫无疑问它们会以高昂的价格出售