我几乎总是使用nokogiri机械化。这个guide帮助我开始了。
这样的事情应该有效(未经测试):
require 'mechanize'
require 'nokogiri'
agent = Mechanize.new
page = agent.get("http://www.google.com/")
doc = Nokogiri::HTML(page.body, "UTF-8")
doc.xpath('//td').each do |node|
puts node.text
end
有关nokogiri的更多信息here