如果所需内容没有类或ID,如何使用nokogiri解析HTML?

时间:2014-03-24 01:25:22

标签: ruby parsing web-scraping nokogiri

我正在尝试抓取一些内容并使用Nokogiri解析它!我现在很震惊,因为我试图得到一些没有附在任何标签中的文字内容。只需在文本中添加一些文本,其中包含任何类或ID的标记。

我可以通过搜索内容/文本的开头和结尾来查找内容并将其全部放在中间吗?

<body>
text <br/>
<ul>
<li>some more text </li>
</body>

CSS选择器或Xpath,任何解决方案都会很棒。

1 个答案:

答案 0 :(得分:0)

require "nokogiri"

Nokogiri::HTML.parse(<<_).css("body").children.first.text
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "\ntext "


Nokogiri::HTML.parse(<<_).css("body").children.first.text.strip
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "text"