如何过滤CDATA并仅从HTML获取文本?

时间:2010-08-19 07:31:44

标签: ruby nokogiri

我想使用Nokogiri解析HTML文件。我能够做到这一点,但我只想要文本,没有CDATA或JavaScript,因为我的脚本和div标签都在文件上。

1 个答案:

答案 0 :(得分:0)

您可以删除所有脚本元素

doc.search('script').remove

...然后选择所有文本元素

doc.xpath('//text()') 

...或者只选择div元素中的文本元素

doc.xpath('//div//text()')