我们可以从FB页面抓取/废弃信息吗?如果是,如何获得正确的css选择器?

时间:2015-04-02 12:38:42

标签: ruby web-crawler

我一直在尝试抓取fb页面。我没有成功检索任何有用的东西。我想要在页面上发布帖子的链接。以下是我一直使用的代码:

 require 'rubygems'
 require 'nokogiri'
 require 'open-uri'
 require 'logger'  
 require 'curb'

 $LOG = Logger.new('log_file.log', 'monthly') 

 http = Curl.get("https://www.facebook.com/thegluebomb") do |http|
  http.headers['User-Agent'] = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"
 end

 html = Nokogiri::HTML(http.body_str)

 rows = html.css(".clearfix").each do |node|
          puts node.inner_html, "\n\n"
        end 
 $LOG.debug("rows: #{rows}")

我认为我的Css选择器是错误的,但是fb页面太复杂了我无法获得正确的css选择器。有人可以指导我怎么做吗?

1 个答案:

答案 0 :(得分:0)

当然你可以做到(我也有)但是你需要一个更高级的爬虫和一个关于HTTP协议和JS的深层解决方案,使用像浏览器这样的Chrome浏览器工具是至关重要的,因为你必须弄清楚哪个是异步的请求是浏览器正在做的,参数,标题,cookie等等。