我使用以下网址阅读了一个包含希伯来字符的网页:
response = ('').join(opener.open(url).readlines())
我得到的结果是混合的,一些字符以unicode的形式返回,我可以处理。
有些反应似乎是乱码。我无法识别的格式。 收到的文本的一个例子是: שלך
更准确地说,它看起来像这样(只是一个片段......):
<h3 class="_52r al aps">About גדי</h3><div>שלך ....</div>
div之间的文字看起来很乱。我可以将其转换为unicode吗?
答案 0 :(得分:3)
您正在查看HTML实体;使用HTMLParser
library解码这些:
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('שלך')
שלך
>>> h.unescape('שלך')
u'\u05e9\u05dc\u05da'
要阅读完整的urllib2
回复,请使用.read()
:
response = opener.open(url).read()