在Ruby中解析网页以从中检索URL

时间:2011-03-22 12:03:18

标签: ruby html-parsing

我想解析一个网页,并使用ruby检索某些标题下的前几个嵌入式网址。例如,我有一个文档存档,其中文档存储为doc-type.timestamp.ext,我想拉出所有相同类型的文档。

我找到的最佳解决方案是: What is the best way to parse a web page in Ruby?

无论如何我可以不使用hpricot和其他类似的包来做到这一点吗?

谢谢!

1 个答案:

答案 0 :(得分:3)

为什么你不想使用外部宝石?它们可以让您的生活更轻松,请查看此Mechanize示例,您可以快速输出页面上的每个链接:

require 'rubygems'
require 'mechanize'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://google.com/') do |page|
  p page.links
end

我最近一直在抓很多,如果不解析页面你就不会走得太远,我使用Nokogiri和普通网/ http,但将来会改用Mechanize。 Mechanize也在内部使用Nokogiri。