Question

我正在尝试使用以下格式解析HTML文件：

    <div style="something">
      <div class="link">
         <a href="http://..." class="headline">Headline</a>
      </div>
      <div class="text">
         Text summary is here
      </div>
      repeating...
   </div>

我想输出标题后跟文字。

   HEADLINE
   Text goes here.

   HEADLINE
   Text goes here.

目前我可以搜索＆lt;一个＆GT;使用class =“headline”标记并获取列表并对文本div执行相同操作。然后迭代每个按顺序输出标题和文本。

我可以让Hpricot / Nokogiri在解析文件时按顺序保存吗？

Answer 1

不确定

doc = Nokogiri::HTML(html)
doc.xpath('//a[@class="headline"]').each do |headline|
  puts headline.text
  puts headline.xpath('../following-sibling::div[1]').text
end

使用Hpricot / Nokogiri解析/迭代html文件

1 个答案: