Question

我打开我的文档doc = Nokogiri::HTML(open(team_url))，之后我正在解析HTML表<td>元素。

在HTML中，通常会有一个看起来像这样的元素

<td>&nbsp;</td>

我做的时候

content = row.xpath("td[1]/text()")

我最终得到?作为内容的结果，而不是空格。

为什么会这样，我该如何解决？

Answer 1

Nokogiri将“ ”转换为no-break space unicode character。您可以进行全局替换来解决。

content.text.gsub("\u00A0", ' ') # replace &nbsp; with space

content.text.gsub("\u00A0", '') # remove &nbsp;