Nokogiri转换成?如何让它转换为空格

时间:2015-04-13 23:43:17

标签: html ruby nokogiri

我打开我的文档doc = Nokogiri::HTML(open(team_url)),之后我正在解析HTML表<td>元素。

在HTML中,通常会有一个看起来像这样的元素

<td>&nbsp;</td>

我做的时候

content = row.xpath("td[1]/text()")

我最终得到?作为内容的结果,而不是空格。

为什么会这样,我该如何解决?

1 个答案:

答案 0 :(得分:2)

Nokogiri将“&nbsp;”转换为no-break space unicode character。您可以进行全局替换来解决。

content.text.gsub("\u00A0", ' ') # replace &nbsp; with space

content.text.gsub("\u00A0", '') # remove &nbsp;