以下是我试图抓取的HTML源代码:
<section class="articles">
<article role="article">
<a href="..."></a>
</article>
<article role="article">
<a href="..."></a>
</article>
我试图用这个抓住href:
require 'open-air'
require 'nokogiri'
url = "http://www.vg.no/sport/langrenn/"
doc = Nokogiri::HTML(open(url))
doc.css(".articles article").each do |i|
location = i.at_css("a")[:href]
puts location
end
我已经尝试了很多其他的东西,但这似乎应该有效。我已经能够使用此页面上的其他选择器来抓取内容,而<article></article>
标签内部没有任何内容,其中包含我需要的所有内容。