Question

我一直在尝试抓取fb页面。我没有成功检索任何有用的东西。我想要在页面上发布帖子的链接。以下是我一直使用的代码：

 require 'rubygems'
 require 'nokogiri'
 require 'open-uri'
 require 'logger'  
 require 'curb'

 $LOG = Logger.new('log_file.log', 'monthly') 

 http = Curl.get("https://www.facebook.com/thegluebomb") do |http|
  http.headers['User-Agent'] = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"
 end

 html = Nokogiri::HTML(http.body_str)

 rows = html.css(".clearfix").each do |node|
          puts node.inner_html, "\n\n"
        end 
 $LOG.debug("rows: #{rows}")

我认为我的Css选择器是错误的，但是fb页面太复杂了我无法获得正确的css选择器。有人可以指导我怎么做吗？

Answer 1

当然你可以做到（我也有）但是你需要一个更高级的爬虫和一个关于HTTP协议和JS的深层解决方案，使用像浏览器这样的Chrome浏览器工具是至关重要的，因为你必须弄清楚哪个是异步的请求是浏览器正在做的，参数，标题，cookie等等。

我们可以从FB页面抓取/废弃信息吗？如果是，如何获得正确的css选择器？

1 个答案: