Facebook网络爬虫

时间:2015-01-18 01:14:01

标签: python facebook facebook-graph-api web-crawler

我正在尝试构建一个网络爬虫来登录FaceBook,并检查一些家庭成员的在线状态,以便为我的父母建立一个项目。在搜索时,我发现这可以通过朋友在线状态的FQL查询获得,但似乎这将在今年4月左右被删除。所以我想也许我可以在python中自己做一个基本的爬虫,它会在我的聊天中从在线朋友那里获取HTML信息,但是在尝试登录后尝试打印HTML代码时,它会返回非常大量的混乱的HTML和javascript提到“BigPipe”。我看到BigPipe将页面分成了小页面,但我对如何处理这些信息感到困惑。

所以我的问题是,有没有人知道除了FQL查询之外获得在线状态的另一种方式,是否有其他人试图抓取Facebook,是否有人试图使用此BigPipe响应抓取任何网站?

提前谢谢你, 杰克

3 个答案:

答案 0 :(得分:0)

您可以编写FireFox扩展程序。没有JavaScript,你将无法刮掉FB。这几乎排除了大多数传统的刮擦方法。

答案 1 :(得分:0)

使用PyQt4.QtWebKit将有助于处理javascript。

以下是它的一些基本用法:webkit-pyqt-rendering-web-pages

文档:PyQt4-qtwebkit.html

答案 2 :(得分:0)

我刚刚完成了我的学校项目,需要Facebook小组成员的用户数据。我使用网络抓取工具 - Octoparse进行数据提取,它是一个非编程应用程序,可用于在Facebook上抓取不同类型的数据。您可以转到本教程:Facebook Scraping Case Study | Scraping Facebook Groups