Question

我想解析一个网页，并使用ruby检索某些标题下的前几个嵌入式网址。例如，我有一个文档存档，其中文档存储为doc-type.timestamp.ext，我想拉出所有相同类型的文档。

我找到的最佳解决方案是： What is the best way to parse a web page in Ruby?

无论如何我可以不使用hpricot和其他类似的包来做到这一点吗？

谢谢！

Answer 1

为什么你不想使用外部宝石？它们可以让您的生活更轻松，请查看此Mechanize示例，您可以快速输出页面上的每个链接：

require 'rubygems'
require 'mechanize'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://google.com/') do |page|
  p page.links
end

我最近一直在抓很多，如果不解析页面你就不会走得太远，我使用Nokogiri和普通网/ http，但将来会改用Mechanize。 Mechanize也在内部使用Nokogiri。

在Ruby中解析网页以从中检索URL

1 个答案: