Facebook页面详细信息和RESTful API?

时间:2010-01-20 21:10:46

标签: python facebook pyfacebook

您好我有一个Facebook页面网址列表

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

最好的方法是:

  • 检查这些网址是否为 以及 个人资料

  • 从这些页面中收集 粉丝数 等详细信息

非常感谢帮助。

4 个答案:

答案 0 :(得分:3)

无需抓取任何内容(无论如何都违反了Facebook的服务条款):

  1. 提取网址的用户名部分 即...之后的位 www.facebook.com /
  2. 执行select fan_count from page where username='michaeljackson'
  3. 形式的FQL查询
  4. 如果结果返回,您知道它是a 页面而不是用户的个人资料。
  5. 有关您可以在同一通话中检索的其他数据,请参阅Page FQL table

答案 1 :(得分:2)

使用urllib2pyfacebook获取内容

使用BeautifulSouplxml来解析它

使用re模块(正则表达式)为您的验证和数据收集提取内容

答案 2 :(得分:1)

粉丝数量位于“FanManager”类的标签中。您可以使用Beautiful Soup获取此标记的内容,使用正则表达式将字符串中的数据(例如:1,000,000粉丝)作为int或任何您想要的内容获取。

要查看该网页是否存在,请检查一些标记,看看您是否在404页面上。

答案 3 :(得分:0)

您可以使用scrapyBeautifulSoup来抓取内容。