为什么有些推文在搜索API中,而不在流式api中,反之亦然

时间:2015-09-21 07:26:30

标签: python twitter tweepy twitter-search

我有一个脚本,使用twitter streaming api将短语(例如“python”)的传入推文存储到数据库表“A”中。稍后,另一个脚本使用twitter search api搜索相同的短语,并将结果存储到表“B”中。我的问题是为什么“A”中的某些推文不在“B”中,反之亦然。

我可以想到一个原因是在“B”而不是“A”中发布推文:

“A”仅包含在流式api启动后发布的推文,而搜索API返回上周的结果。如果流式api已运行超过一周,则“B”中的任何推文都不得出现在“A”中。

我知道在“A”而不是“B”中有一些推文有两个原因:

  1. 搜索API仅返回上周的结果,而流式传输api会返回所有内容
  2. 搜索API仅返回部分结果,而不是全部,因为它的重点不在于完整性。
  3. 我想确定我是否正确。

1 个答案:

答案 0 :(得分:1)

" B"不在" A"你是对的。这方面的一个重要指标来自您包含的搜索API链接:

  

它允许查询最近或流行推文的索引......

对于" A"不在" B"你也是正确的但是犯了小错误。

  1. Streaming API不会返回所有内容,只会返回1% 推文总数。 1%的过滤器在Twitter内部完成 关于它是如何完成的,没有任何迹象。不久前有一个关于修正1%以确定真正1%的公告,但我似乎无法找到我在其中阅读的链接。
  2. 使用Streaming API,您也会受到(更常见)的影响:
    • 公共流限制(达到1%)
    • 失速警告(警告)
  3. 根据您的使用情况,很少有其他人https://dev.twitter.com/streaming/overview/messages-types