Question

如何让urllib只取消有效的％编码字符串？

html_parser = HTMLParser.HTMLParser()
url = 'Time-@#*%ed%20&amp;'
print urllib2.unquote(url)
print html_parser.unescape(url)

结果是

Time-@#*� &amp;
Time-@#*%ed%20&

urllib unquote'％20'到''，但它也错误地将'％ed'解释为' '

HTMLParser可以逃脱'＆amp; amp;'到'＆amp;'，但它无法将'％20'转换为''

--------------编辑------

我很抱歉没有很好地解释我的问题，事实上我有很多要处理的字符串，有些是URL，有些则不是。原始字符串为Time-@#*%ed，我将字符串设为Time-@#*%ed%20&以包含两种情况。事实证明，在一行代码中很难处理这两种情况。在阅读答案后，我编写了自己的函数

#!/bin/env python
#coding: utf8

import sys
import os
import HTMLParser
import re
import urllib

html_parser = HTMLParser.HTMLParser()
url_pattern = re.compile('^(ftp|http|https)://.{4,}', flags=re.I)
def unquote_string(url):
    if url_pattern.search(url):
        while True:
            url1 = urllib.unquote(url)
            if url1 == url: break
            url = url1
    else:
        while True:
            url1 = html_parser.unescape(url)
            if url1 == url: break
            url = url1

    return url

url = 'Time-@#*%ed%20&amp;'
print urllib.unquote(url)
print html_parser.unescape(url)
print unquote_string(url)

Answer 1

问题是%ed 是有效的％编码字符，因为ed是有效的十六进制值。如果要保持%不变，则应将其编码为%或%。所以你真正的问题是你的url字符串没有被正确编码：如果要保持%ed不变，字符串应该是：

url = 'Time-@#*&#37;ed%20&amp;'

由于它没有正确编码（BTW，你是怎么得到它的？）你不能要求标准工具能够正确解码它。 unquote如何知道必须处理%20但%ed一定不能处理？

此时，您可以做的最好的事情是构建自定义解码器。

url2 = url.replace('%20', ' ')
print html_parser.unescape(url2)

给出：

Time-@#*%ed &

Answer 2

&是用于html页面的html entity - 不在网址中。因此url unquoting无效。

另一方面，%ed和%20格式为url escapes格式化，以便作为网址的一部分进行传输，因此html unescaping将不会对其进行操作。< / p>

如果要转换html实体和url转义，则需要分别处理每个序列：

import urllib 
import HTMLParser
import re

html_parser = HTMLParser.HTMLParser()

data = 'Time-@#*%ed%20&amp;'

pattern = r"""
      %               #Match a '%' sign, followed by...
      [0-9a-f]{2}     #two hex digits..
    |               #OR
      &               #an ampersand, followed by... 
      .*?             #any character, 0 or more times, non-greedy, followed by...
      ;               #a semi-colon
"""

regex = re.compile(pattern, flags=re.X | re.I)

def replace_func(match_obj):
    match = match_obj.group(0)

    if match.startswith('%'):
        my_str = urllib.unquote(match)
        my_str = unicode(my_str, 'iso-8859-1').encode('utf-8')

    elif match.startswith('&'):
        unicode_str = html_parser.unescape(match)
        my_str = unicode_str.encode('utf-8')

    return my_str

result = re.sub(regex, replace_func, data)
print result

--output:--
Time-@#*í &

一个问题：要将像ed这样的随机字节序列转换为字符，您必须知道这些字节应该代表字符的编码。我猜对了 - 但是你必须知道，否则你通常不会像这样做那些字符串的转换。

Answer 3

unquote（）返回的字符串是latin1编码的。试试这个：

import urllib2
url = 'Time-@#*%ed%20&amp;'
x = urllib2.unquote(url)
u = x.decode('iso-8859-1')
print u

u将是一个unicode字符串。

根据百分比编码的维基百科页面(link)百分比编码也可用于编码UTF-8数据，因此您可能需要使用x.decode('utf-8')。这一切都取决于这些数据的来源和背景。

python urllib unquote腐败

3 个答案: