我一直在尝试抓取fb页面。我没有成功检索任何有用的东西。我想要在页面上发布帖子的链接。以下是我一直使用的代码:
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'logger'
require 'curb'
$LOG = Logger.new('log_file.log', 'monthly')
http = Curl.get("https://www.facebook.com/thegluebomb") do |http|
http.headers['User-Agent'] = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"
end
html = Nokogiri::HTML(http.body_str)
rows = html.css(".clearfix").each do |node|
puts node.inner_html, "\n\n"
end
$LOG.debug("rows: #{rows}")
我认为我的Css选择器是错误的,但是fb页面太复杂了我无法获得正确的css选择器。有人可以指导我怎么做吗?
答案 0 :(得分:0)
当然你可以做到(我也有)但是你需要一个更高级的爬虫和一个关于HTTP协议和JS的深层解决方案,使用像浏览器这样的Chrome浏览器工具是至关重要的,因为你必须弄清楚哪个是异步的请求是浏览器正在做的,参数,标题,cookie等等。