Question

我想删除我用nokogiri加载的html页面中的所有文本。例如，如果页面具有以下内容：

<body><script>var x = 10;</script><div>Hello</div><div><h1>Hi</h1></div></body>

我想用Nokogiri处理它并在剥离文本之后返回如下所示的html：

<body><script>var x = 10;</script><div></div><div><h1></h1></div></body>

（即删除实际的h1文本，div之间的文本，p元素中的文本等，但保留标记。另外，不要删除脚本标记中的文本。）

Answer 1

require 'nokogiri'
html = "<body><script>var x = 10;</script><div>Hello</div><div><h1>Hi</h1></div></body>"
hdoc = Nokogiri::HTML(html)
hdoc.xpath( '//*[text()]' ).each do |el|
  el.content='' unless el.name=="script"
end

puts hdoc
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body>
#=> <script>var x = 10;</script><div></div>
#=> <div><h1></h1></div>
#=> </body></html>

警告：由于您未指定如何处理<div>foo<h1>bar</h1></div>之类的案例，上述内容可能会或可能不会达到预期效果。或者，以下内容可能符合您的需求：

hdoc.xpath( '//text()' ).each do |el|
  el.remove unless el.parent.name=="script"
end

更新

这是一个更优雅的解决方案，使用单个xpath选择不属于<script>元素的所有文本节点。我添加了更多文本节点来显示它如何处理它们。

require 'nokogiri'
hdoc = Nokogiri::HTML <<ENDHTML
  <body>
  <script>var x = 10;</script>
  <div>Hello</div>
  <div>foo<h1>Hi</h1>bar</div>
  </body>
ENDHTML
hdoc.xpath( '//text()[not(parent::script)]' ).each{ |text| text.remove }
puts hdoc
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body>
#=> <script>var x = 10;</script><div></div>
#=> <div><h1></h1></div>
#=> </body></html>

对于Ruby 1.9，肉更简单：

hdoc.xpath( '//text()[not(parent::script)]' ).each(&:remove)

保留HTML页面的结构，删除所有文本节点

1 个答案:

更新