我想解析一个网页,并使用ruby检索某些标题下的前几个嵌入式网址。例如,我有一个文档存档,其中文档存储为doc-type.timestamp.ext,我想拉出所有相同类型的文档。
我找到的最佳解决方案是: What is the best way to parse a web page in Ruby?
无论如何我可以不使用hpricot和其他类似的包来做到这一点吗?
谢谢!
答案 0 :(得分:3)
为什么你不想使用外部宝石?它们可以让您的生活更轻松,请查看此Mechanize示例,您可以快速输出页面上的每个链接:
require 'rubygems'
require 'mechanize'
a = Mechanize.new { |agent|
agent.user_agent_alias = 'Mac Safari'
}
a.get('http://google.com/') do |page|
p page.links
end
我最近一直在抓很多,如果不解析页面你就不会走得太远,我使用Nokogiri和普通网/ http,但将来会改用Mechanize。 Mechanize也在内部使用Nokogiri。