假设我正在根据各种标准从twitter收集推文并将这些推文存储在本地mysql数据库中。我希望能够有计算机热门话题,比如twitter,可以是1-3个单词的长度。
是否可以编写脚本来执行类似PHP和mysql的操作?
我发现,一旦你能够获得这些术语的计数,我就会回答如何计算哪些术语是“热门的”,但我仍然坚持第一部分。如何将数据存储在数据库中,如何计算数据库中1-3个字长的术语频率?
答案 0 :(得分:2)
来自我的热门话题收据:
1.获取推文
2.将每个推文按空格分成n-gram(如果你想要3个字长,最多3克)阵列
3.从url,@ username,常用词和垃圾字符中筛选出每个数组
4.统计所有独特的关键词/短语频率
5.静音一些垃圾词/短语
是的,你可以在php& mysql;)
答案 1 :(得分:1)
如何首先在单个单词标记中分解您的推文并计算每个单词的出现次数? 一旦你拥有它们,就可以分解所有两个单词标记,计算出现次数,最后对所有三个单词标记进行相同的处理。
您可能还想添加一些您不想计算的单词词典
答案 2 :(得分:1)
你需要的是
可能是第二个。只有这样你才能及时计算他们的受欢迎程度。
答案 3 :(得分:0)
或者与Dominik相反,并存储您希望匹配的短语,空格和所有短语。将它们写为正则表达式字符串。对于数据库中的每一行(文件,sql表,等等),处理正则表达式,查找计数。
这取决于你想要琐碎地做到这一点:一切 - 这是常见的,从而找到真正的趋势,或设置短语查找。在一个案例中,你会发现很多你可能不感兴趣的东西,你需要一个广泛的阻止列表 - 在另一种情况下,你需要一个巨大的白名单。
要超越这一点,您需要使用自然语言处理工具来确定所说内容的含义。