解析顶部后续页面

时间:2017-10-24 11:25:49

标签: facebook parsing twitter instagram social-networking

我专注于使用Python进行解析,目前正致力于社会学研究。在我的研究中,我需要从任何最流行的社交网络中解析最多的页面。我已经通过他们的API和其他方法来搜索这些并发现他们中的大多数(Facebook,Twitter,Instagram)不允许通过关注者计数或其他信息进行搜索。

有人有这个问题吗?你是怎么克服的?有没有办法解析我需要的东西(不仅仅是在上面提到的社交网站,不包括YouTube)?

UPD:出于研究目的,我需要数千个。

1 个答案:

答案 0 :(得分:0)

管理以寻找Twitter的答案。不是很优雅,但这就是我所需要的。

如果您需要超过1k的某些博客(例如拥有1米或更多粉丝的博主),您可以使用以下算法:

  1. 选择一位着名的博主(例如@LeoDiCaprio)并解析页面 他跟随的ids有你需要的追随者(在我们的例子中) 它是> 1m)。
  2. 将这些页面添加到列表中,然后添加每个页面 做同样的事。
  3. 我认为你明白了。 在大多数情况下,热门页面主要是最受欢迎的页面,这就是它为什么会这样做的原因=) 由于twitters` API每15分钟只给你15个请求,这取决于你需要的页数,这个工作需要一些时间(对我来说,花1小时才能获得1k页)