我在这里阅读了很多关于计算文本趋势的算法和通用方法的帖子,但是我需要一个实用的,简单的例子来说明如何使用PHP来实现这一点。
One post that was more helpful than the rest建议对每个文本进行规范化,然后根据单词将每个文本分解为一个数组(在归档链接,用户名等之后),从每个消息构建每个单词的大量数组,然后使用{{3}找出哪些词最常见。这似乎可行,但我不知道这是否是最好的方式。例如,似乎赞成单词结果而不是短语(“Barack”和“Obama”而不是“Barack Obama”)。
还有比这更好的方法吗?我可能会使用的实际示例或预先存在的解决方案(脚本或类)?谢谢!
答案 0 :(得分:0)
如果没有收集大量关于单词和短语的数据,您要求的内容很难自动完成。
除非你愿意花费大量的时间,金钱和持续的资源来实现自动化,否则我建议你手动创建一个应该算作短语的单词列表(就像Barack和Obama相邻一样) ,将其提取为巴拉克奥巴马),或者只是忘记整个事情并按照帖子解释的方式进行。
可能有外部服务可以按照您想要的方式解析数据,但毫无疑问它们会以高昂的价格出售