使用Ruby从URL的HTML源代码中获取文本

时间:2014-06-05 01:57:02

标签: html ruby ruby-on-rails-3 url gem

我已经阅读了有关此主题的stackoverflow上的几篇文章和帖子。如果我在重复其他人的帖子,我道歉。有没有办法迭代给定URL的HTML源代码并返回标头标签的文本?

示例:

<h2 class='title'>
<a href="/blog/step-by-step-guide-to-building-your-first-ruby-gem">Step-by-Step Guide to Building Your First Ruby Gem</a>
</h2>

代码查找

标记,并返回构建您的第一个Ruby Gem的循序渐进指南。我知道Nokogiri宝石在xpath中搜索节点:

doc.xpath('//h3/a').each do |link|
puts link.content
end

我有可能做的事吗

doc.html('h1').each do |tag| puts link.content end

我希望它有意义......对资源方向的任何见解都将受到高度赞赏。

1 个答案:

答案 0 :(得分:1)

Nokogiri有XPath和CSS访问器,所以你可以做到

doc.css('h1 > a').each do |tag| puts link.content end

如果你不喜欢XPath。 (或者仅'h1' - 如果您想要标题中的链接文本或标题本身,我不是100%确定。