Question

我使用以下网址阅读了一个包含希伯来字符的网页：

response = ('').join(opener.open(url).readlines())

我得到的结果是混合的，一些字符以unicode的形式返回，我可以处理。

有些反应似乎是乱码。我无法识别的格式。收到的文本的一个例子是： שלך

更准确地说，它看起来像这样（只是一个片段......）：

<h3 class="_52r al aps">About ‎גדי‎</h3><div>&#x5e9;&#x5dc;&#x5da; ....</div>

div之间的文字看起来很乱。我可以将其转换为unicode吗？

Answer 1

您正在查看HTML实体;使用HTMLParser library解码这些：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('&#x5e9;&#x5dc;&#x5da;')
שלך
>>> h.unescape('&#x5e9;&#x5dc;&#x5da;')
u'\u05e9\u05dc\u05da'

要阅读完整的urllib2回复，请使用.read()：

response = opener.open(url).read()

阅读urllib2 python中的希伯来语

1 个答案: