我已经谷歌搜索了一段时间,但我想我使用的是一组错误的关键字。有没有人知道这个URI让我请求Facebook允许我抓取他们的网络?上次我使用Python执行此操作时,有人建议我查看它,但我也找不到该帖子。
答案 0 :(得分:5)
令人惊讶的是,这是在他们的robots.txt中给出的。
您正在寻找的链接就是这个:
http://www.facebook.com/apps/site_scraping_tos.php
如果您已经不是一个庞大的组织,请不要期望在那里明确列入白名单。根据robots.txt和TOS,如果您没有明确列入白名单,则根本不允许抓取。您必须改用API。
甚至不要考虑伪装成白名单的抓取工具之一。 Facebook通过白名单过滤每个抓取工具,其他任何看起来像抓取的东西都可以立即获得永久禁令。有一段时间,只是点击太快的用户偶尔会碰到这个。
答案 1 :(得分:0)
由于这是一个登录&密码,我不确定它有多少是合法可抓取的。如果你看到谷歌甚至只索引用户个人资料页面。但不是他们的墙贴或照片等。
我建议你在Facebook论坛发表这个问题。但你可以在这里查看 -