urllib2编码问题

时间:2012-05-12 03:07:04

标签: python encoding urllib2

这是我的示例脚本:

import urllib2, re

response = urllib2.urlopen('http://domain.tld/file')
data     = response.read() # Normally displays "the emoticon <3 is blah blah"

pattern   = re.search('(the emoticon )(.*)( is blah blah)', data)
result    = pattern.group(2) # result should contain "<3" now

print 'The result is ' + result # prints "&lt;3" because not encoded

正如您所看到的,我正在获取一个页面并试图从中获取一个字符串,但它没有正确编码,因为我不确定要添加到此脚本中的内容o使最终结果正确。谁能指出我做错了什么?

1 个答案:

答案 0 :(得分:1)

试试这个:

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape('wer&amp;wer')
u'wer&wer'