为了从网上获取(抓取)内容,我一直在努力使用nokogiri lib,我无法理解如何只获取没有嵌套标签的文本。 这是我解析的内容
<div class="line1">text I need
<br><div class="podp_k">group:</div><a class="GR" title="go to this group" href="#" rel="?sectID=2">group 1</a>
<br>
<div class="podp_k">brand:</div><a class="BR" title="go to brand" href="#" rel="?sectID=0&brand=16">China CHINA</a>
</div>
这是我抓它的方式
tagcloud_elements = nokogiri_object.css("div#products_tbody > table > tbody > tr > td > div.line1 > text()")
f.puts tagcloud_element.text.gsub(/^\s+/,'')
最后的gsub几乎完全是我需要的,但我之后留下了一些空格。请问有人建议从上面的例子中得到“我需要的文字”的最佳方法吗?
答案 0 :(得分:1)
如果您不再使用该文档,我会删除本节中的其他节点。
nokogiri_object.css("div.line1 *").each(&:remove)
nokogiri_object.at_css("div.line1").text.strip # => "text I need"