Question

我正在尝试抓取一些内容并使用Nokogiri解析它！我现在很震惊，因为我试图得到一些没有附在任何标签中的文字内容。只需在文本中添加一些文本，其中包含任何类或ID的标记。

我可以通过搜索内容/文本的开头和结尾来查找内容并将其全部放在中间吗？

<body>
text <br/>
<ul>
<li>some more text </li>
</body>

CSS选择器或Xpath，任何解决方案都会很棒。

Answer 1

require "nokogiri"

Nokogiri::HTML.parse(<<_).css("body").children.first.text
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "\ntext "


Nokogiri::HTML.parse(<<_).css("body").children.first.text.strip
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "text"

如果所需内容没有类或ID，如何使用nokogiri解析HTML？

1 个答案: