如何计算来自查询的推文而不重复计算?

时间:2012-11-07 01:07:16

标签: python twitter twython

我正在处理一个项目,该项目需要计算满足查询参数的推文数量。我在Python工作,使用Twython作为我的Twitter界面。

虽然有几个问题,你如何记录哪些推文已被考虑?您是否只需记下最后一条推文ID并忽略它以及之前的所有内容? - 最简单的实现是什么?

作为另一个优化问题,我想确保计数器错过的推文数量很少,有什么办法可以确定吗?

非常感谢。

2 个答案:

答案 0 :(得分:1)

您可以考虑使用套装!他们防止重复。

一些伪代码:

s = set()
for tweet in tweets:
   s.add(tweet.id)

答案 1 :(得分:0)

考虑到类似推文和转发的情况,我建议制作整条推文的语义注释,提取每条推文的文本部分并进行字典查找。 但是如上所述,tweet id更加简单,具有显着的损失和使用。