如何在抓取时处理“无尽的”网页

时间:2016-08-08 21:37:08

标签: python facebook mechanize mechanize-python

我正在制作一个刮刀从Facebook获取我的朋友列表,然后从他们那里搜集一份共同的朋友列表,目标是用数据构建一个网络。我看了官方的Facebook api,似乎没有可能这样做我决定只是从网页上刮掉。

使用mechanize登录后,我抓了一页,发现facebook一次只能加载20个朋友,滚动时加载更多。我查看了机械化文档,但我找不到解决方案。我试着睡了几秒钟才弄到了页面,这也不起作用。

不知道从哪里开始,无论如何都要在机械化中模拟滚动?

1 个答案:

答案 0 :(得分:0)

除非您使用Selenium来模拟实际网页,否则您将无法模拟“滚动”(当没有窗口时如何滚动,因此没有窗口高度?)

您声明API中没有任何内容可以让您获取朋友的朋友,但似乎有API function允许您抓取用户的好友列表。

如果这也不起作用,您唯一的选择就是追踪FB用于获取下一个朋友列表的ajax,并使用它来获取更多信息。