编码问题HTML,解决方案使用正则表达式?

时间:2013-09-25 14:05:42

标签: html ruby regex encoding nokogiri

我知道有关此主题的多个讨论,其中之一就是:HTML encoding issues - "Â" character showing up instead of " "

我确实遵循了它,但我想解决这个问题而不向我的html添加任何“meta charset”标签,事实上,我正在删除标题中的所有标签(Nokogiri有一些问题)。是否有任何可能的正则表达式,我可以用来从我的输出中消除这些?我将输出抛给“csv”,我可以在csv文件中看到那些。

谢谢!

1 个答案:

答案 0 :(得分:3)

如果您打算解决UTF-8编码文档被解释为ISO-8859-1的问题,那么您只需要编写一个映射UTF-8编码形式的Unicode字符的正则表达式(大约100,000个)总计)到正确的字符。显然,从一开始就是一个坏主意。