我开始使用Nokogiri并尝试从IMDB中提取一些数据。但是,IMDB的html有点搞笑,似乎无法找到css选择器等一些东西,比如创建者的名字,例如:http://www.imdb.com/title/tt1439629/。我怎么能得到我追求的东西?
require 'nokogiri'
require 'open-uri'
url = "http://www.imdb.com/title/tt1439629/"
doc = Nokogiri::HTML(open(url))
puts doc.at_css("h1").text.strip
答案 0 :(得分:1)
这是Nokogiri的初学者教程,解释了如何通过firebug及其复制CSS功能非常轻松地找到您正在寻找的内容。
答案 1 :(得分:0)
这个有效:
puts doc.at_css("div.txt-block a").text.strip
> Dan Harmon