我正在试图抓住一个包含希伯来文内容的网站。
该网站的希伯来语部分显示为
úåìåòô
如何将这些字符转换为正确的字母?
我正在使用带有BeautifulSoup的Python
答案 0 :(得分:2)
你需要给BeautifulSoup使用正确的编解码器,因为否则会做出有根据的猜测并且错误(某些时候)。
如果您使用urllib2
加载页面,则可以传递服务器设置的任何编码:
soup = BeautifulSoup(response.read(),
from_encoding =response.info().getparam('charset'))
请参阅BeautifulSoup文档的encodings section。
答案 1 :(得分:1)
cp424 EBCDIC-CP-HE,IBM424希伯来语
cp856希伯来语
cp862 862,IBM862希伯来语
cp1255 windows-1255希伯来语 iso8859_8 iso-8859-8,希伯来语希伯来语