Nokogiri和IMDb

时间:2012-10-18 05:39:03

标签: ruby nokogiri

我开始使用Nokogiri并尝试从IMDB中提取一些数据。但是,IMDB的html有点搞笑,似乎无法找到css选择器等一些东西,比如创建者的名字,例如:http://www.imdb.com/title/tt1439629/。我怎么能得到我追求的东西?

require 'nokogiri'
require 'open-uri'

url = "http://www.imdb.com/title/tt1439629/"
doc = Nokogiri::HTML(open(url))  
puts doc.at_css("h1").text.strip

2 个答案:

答案 0 :(得分:1)

这是Nokogiri的初学者教程,解释了如何通过firebug及其复制CSS功能非常轻松地找到您正在寻找的内容。

http://ruby.bastardsbook.com/chapters/html-parsing/

答案 1 :(得分:0)

这个有效:

puts doc.at_css("div.txt-block a").text.strip
> Dan Harmon