我正在尝试清理一个使用mechanize从网站上获得的字符串
这是一个除了带有垃圾字符的字符串
"Mountain</b></a><br>ΓÇÄ1hr 39minΓÇÄΓÇÄ - Rated PGΓÇÄΓÇÄ - Action/Adventure/Science fictionΓÇÄΓÇÄ - EnglishΓÇÄ - <a href="
是否有人知道他们的角色来自哪里以及如何用空格替换它们? ruby如何处理字符编码?
答案 0 :(得分:3)
这些字符看起来可能是UTF-8编码问题的结果。我建议阅读Joel的优秀文章The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!),它将解释UTF-8编码以及如何在代码中处理它。