将有趣的特殊拉丁字符转换为unicode(外来字符)

时间:2014-02-26 16:13:08

标签: python unicode character-encoding beautifulsoup

我正在试图抓住一个包含希伯来文内容的网站。

该网站的希伯来语部分显示为

úåìåòô

如何将这些字符转换为正确的字母?

我正在使用带有BeautifulSoup的Python

2 个答案:

答案 0 :(得分:2)

你需要给BeautifulSoup使用正确的编解码器,因为否则会做出有根据的猜测并且错误(某些时候)。

如果您使用urllib2加载页面,则可以传递服务器设置的任何编码:

soup = BeautifulSoup(response.read(),
                     from_encoding =response.info().getparam('charset'))

请参阅BeautifulSoup文档的encodings section

答案 1 :(得分:1)

根据网站Standard Encodings

  

cp424 EBCDIC-CP-HE,IBM424希伯来语
  cp856希伯来语
  cp862 862,IBM862希伯来语
  cp1255 windows-1255希伯来语   iso8859_8 iso-8859-8,希伯来语希伯来语