Question

似乎没有办法向urlparse命令添加标头。这实质上导致Python使用其默认用户代理，该代理被多个网页阻止。我想要做的就是基本上做相同的事情：

req = Request(INPUT_URL,headers={'User-Agent':'Browser Agent'})

但是使用urlparse：

parsed = list(urlparse(INPUT_URL))

那么如何修改这个urlparse才能获取头文件，或者可以使用我创建的请求？感谢任何帮助。谢谢。

此外，对于任何想知道我得到的确切错误的人：

urllib.error.HTTPError: HTTP Error 403: Forbidden

在此：

urlretrieve(urlunparse(parsed),outpath)

Answer 1

标头是请求的一部分，其中URL是一部分。当您仅将URL传递给urllib.request函数时，Python会为您创建一个请求。

创建Request object，将标头添加到该对象并使用该标头而不是字符串网址：

request = Request(urlunparse(parsed), headers={'User-Agent': 'My own agent string'})

但是，urlretrieve()在代码中标记为“遗留API”，不支持使用Request对象。删除支持'file：//'网址的几行非常简单：

import contextlib
import tempfile
from urllib.error import ContentTooShortError

来自urllib.request import urlopen

_url_tempfiles = []
def urlretrieve(url, filename=None, reporthook=None, data=None):
    with contextlib.closing(urlopen(url, data)) as fp:
        headers = fp.info()

        # Handle temporary file setup.
        if filename:
            tfp = open(filename, 'wb')
        else:
            tfp = tempfile.NamedTemporaryFile(delete=False)
            filename = tfp.name
            _url_tempfiles.append(filename)

        with tfp:
            result = filename, headers
            bs = 1024*8
            size = -1
            read = 0
            blocknum = 0
            if "content-length" in headers:
                size = int(headers["Content-Length"])

            if reporthook:
                reporthook(blocknum, bs, size)

            while True:
                block = fp.read(bs)
                if not block:
                    break
                read += len(block)
                tfp.write(block)
                blocknum += 1
                if reporthook:
                    reporthook(blocknum, bs, size)

    if size >= 0 and read < size:
        raise ContentTooShortError(
            "retrieval incomplete: got only %i out of %i bytes"
            % (read, size), result)

    return result

Python将标题添加到urlparse

1 个答案: