我打开我的文档doc = Nokogiri::HTML(open(team_url))
,之后我正在解析HTML表<td>
元素。
在HTML中,通常会有一个看起来像这样的元素
<td> </td>
我做的时候
content = row.xpath("td[1]/text()")
我最终得到?
作为内容的结果,而不是空格。
为什么会这样,我该如何解决?
答案 0 :(得分:2)
Nokogiri将“
”转换为no-break space unicode character。您可以进行全局替换来解决。
content.text.gsub("\u00A0", ' ') # replace with space
content.text.gsub("\u00A0", '') # remove