Ruby删除  

时间:2014-06-20 04:41:52

标签: html ruby

我正在使用xpath从html文件中提取包含关键字的第一个元素。但有些文件有& #xD&#xA0,我的代码不起作用。我想用空格替换& #xD&#xA0但不知道如何。

 <font size="1" face="Times New Roman" style="font-size:8.0pt;">For&#xD;
 the fiscal year ended December&#xA0;31, 2006</font>

doc.xpath('//*[contains(text(),"For the fiscal year ended")]')[0]

感谢您的帮助。

2 个答案:

答案 0 :(得分:2)

要转换为实际值:

require "htmlentities"
HTMLEntities.new.decode('For&#xD; the fiscal year ended December&#xA0;31, 2006')
#=> "For\r\n the fiscal year ended December 31, 2006"

gsub"\r\n"上执行" "即可进行此操作。

答案 1 :(得分:0)

在解析之前,最容易在预处理中执行此操作:source.gsub!(/&#x(d|a0);/i, ' ')