有没有办法抓取所有Facebook粉丝页面并收集一些信息?例如抓取Facebook粉丝页面并保存他们的名字,或者有多少粉丝等? 或者至少,你是否暗示如何做到这一点?
答案 0 :(得分:2)
编写一个抓取工具。
我使用可口可乐的网页作为实验:http://www.facebook.com/cocacola?v=wall
解析出“粉丝”div,其中包含“All Fans”链接。在您的Web浏览器中查看源代码,它看起来像这样: /social_graph.php?node_id=40796308305&class=FanManager
将其转换为Facebook网址并抓取它: http://www.facebook.com/social_graph.php?node_id=40796308305&class=FanManager
解析粉丝,然后解析“下一页”链接。
重复,恶心。
限制您的请求,以便facebook不会将您列入黑名单。
答案 1 :(得分:1)
首先选择包含所需页面类别的页面:
例如: http://www.facebook.com/pages/或http://www.facebook.com/pages/?browse&ps=93
然后使用抓取工具获取所有网页链接。
现在,您可以使用提取的链接分别解析每个页面。
您可以使用simple html dom进行抓取。
答案 2 :(得分:1)
下载并运行websphinx jar。输入http://www.facebook.com/pages/到起始网址,然后选择子树为抓取。不要忘记增加页面大小和页面超时值。较高数量(100-200)的线程有更高的成功抓取更多页面的机会。