读取html中的不间断空格会产生符号

时间:2015-01-22 21:42:27

标签: html ruby character-encoding sinatra nokogiri

我终于设法解析了网站的部分内容:

get '/' do
  url = '<website>'
  data = Nokogiri::HTML(open(url))
  @rows = data.css("td[valign=top] table tr") 
  erb :muster
end

现在我想在我的视图中提取某一行。因此我输入了我的HTML代码:

<%= @rows[2] %> 

它实际上返回了代码,但它有空格问题:

<td class="class_name">&nbsp;</td>
相反,它说

<td class="class_name">�</td>

我做错了什么?

1 个答案:

答案 0 :(得分:0)

尝试替换

data = Nokogiri::HTML(open(url))

data = Nokogiri::HTML(open(url).encode('ASCII-8BIT'))

这样nokogiri不会尝试使用UTF-8,因此打印&nbsp;而不是ASCII char 0xA0。