python - Facebook网络爬虫

Facebook网络爬虫

时间：2015-01-18 01:14:01

标签： python facebook facebook-graph-api web-crawler

我正在尝试构建一个网络爬虫来登录FaceBook，并检查一些家庭成员的在线状态，以便为我的父母建立一个项目。在搜索时，我发现这可以通过朋友在线状态的FQL查询获得，但似乎这将在今年4月左右被删除。所以我想也许我可以在python中自己做一个基本的爬虫，它会在我的聊天中从在线朋友那里获取HTML信息，但是在尝试登录后尝试打印HTML代码时，它会返回非常大量的混乱的HTML和javascript提到“BigPipe”。我看到BigPipe将页面分成了小页面，但我对如何处理这些信息感到困惑。

所以我的问题是，有没有人知道除了FQL查询之外获得在线状态的另一种方式，是否有其他人试图抓取Facebook，是否有人试图使用此BigPipe响应抓取任何网站？

提前谢谢你，杰克

3 个答案:

答案 0 :(得分：0)

您可以编写FireFox扩展程序。没有JavaScript，你将无法刮掉FB。这几乎排除了大多数传统的刮擦方法。

答案 1 :(得分：0)

使用PyQt4.QtWebKit将有助于处理javascript。

以下是它的一些基本用法：webkit-pyqt-rendering-web-pages

文档：PyQt4-qtwebkit.html

答案 2 :(得分：0)

我刚刚完成了我的学校项目，需要Facebook小组成员的用户数据。我使用网络抓取工具 - Octoparse进行数据提取，它是一个非编程应用程序，可用于在Facebook上抓取不同类型的数据。您可以转到本教程：Facebook Scraping Case Study | Scraping Facebook Groups