阅读urllib2 python中的希伯来语

时间:2013-02-07 13:51:04

标签: python encoding urllib2

我使用以下网址阅读了一个包含希伯来字符的网页:

response = ('').join(opener.open(url).readlines())

我得到的结果是混合的,一些字符以unicode的形式返回,我可以处理。

有些反应似乎是乱码。我无法识别的格式。 收到的文本的一个例子是:     שלך

更准确地说,它看起来像这样(只是一个片段......):

<h3 class="_52r al aps">About ‎גדי‎</h3><div>&#x5e9;&#x5dc;&#x5da; ....</div>

div之间的文字看起来很乱。我可以将其转换为unicode吗?

1 个答案:

答案 0 :(得分:3)

您正在查看HTML实体;使用HTMLParser library解码这些:

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('&#x5e9;&#x5dc;&#x5da;')
שלך
>>> h.unescape('&#x5e9;&#x5dc;&#x5da;')
u'\u05e9\u05dc\u05da'

要阅读完整的urllib2回复,请使用.read()

response = opener.open(url).read()