我正试图取消对通过Selenium从href检索的字符串的引用:
input.replaceAll("(Y = +)", "$1-").replaceAll("(Y = +)--", "$1"));
当我尝试在Python 3中使用urllib.parse.unquote或urllib.parse.unquote_plus时,它们都返回以下内容:
DOC.01-PROCURA%C7%C3O.pdf
我如何摆脱这些字符?它应该返回'DOC.01-PROCURA��O.pdf'
,因为Selenium会下载具有该文件名的pdf文件,稍后我会通过DOC.01-PROCURAÇÃO.pdf
找到它。
答案 0 :(得分:0)
urllib.parse.unquote
默认解码为UTF-8。在这种情况下,Windows-1252
可以工作:
>>> s = 'DOC.01-PROCURA%C7%C3O.pdf'
>>> urllib.parse.unquote(s,'Windows-1252')
'DOC.01-PROCURAÇÃO.pdf'
检查数据来源页面的编码。