Question

我正在处理一个项目，该项目需要计算满足查询参数的推文数量。我在Python工作，使用Twython作为我的Twitter界面。

虽然有几个问题，你如何记录哪些推文已被考虑？您是否只需记下最后一条推文ID并忽略它以及之前的所有内容？ - 最简单的实现是什么？

作为另一个优化问题，我想确保计数器错过的推文数量很少，有什么办法可以确定吗？

非常感谢。

Answer 1

您可以考虑使用套装！他们防止重复。

一些伪代码：

s = set()
for tweet in tweets:
   s.add(tweet.id)

Answer 2

考虑到类似推文和转发的情况，我建议制作整条推文的语义注释，提取每条推文的文本部分并进行字典查找。但是如上所述，tweet id更加简单，具有显着的损失和使用。