我正在使用xpath从html文件中提取包含关键字的第一个元素。但有些文件有& #xD&#xA0,我的代码不起作用。我想用空格替换& #xD&#xA0但不知道如何。
<font size="1" face="Times New Roman" style="font-size:8.0pt;">For
the fiscal year ended December 31, 2006</font>
doc.xpath('//*[contains(text(),"For the fiscal year ended")]')[0]
感谢您的帮助。
答案 0 :(得分:2)
要转换为实际值:
require "htmlentities"
HTMLEntities.new.decode('For
 the fiscal year ended December 31, 2006')
#=> "For\r\n the fiscal year ended December 31, 2006"
在gsub
和"\r\n"
上执行" "
即可进行此操作。
答案 1 :(得分:0)
在解析之前,最容易在预处理中执行此操作:source.gsub!(/&#x(d|a0);/i, ' ')