Question

我是网络抓取的新手，但对Python非常熟悉。我正试图在这个链接上找到一种方法来使用Python来下载pdf（或类似的）：

https://www.gilbertaz.gov/Home/ShowDocument?id=21298

我已经看到了在线代码（Download pdf using urllib?），了解如何下载具有已知格式的文件，例如http://www.example.com/mypdf.pdf。
但是，整个ShowDocument?id=XXXXX格式让我陷入了循环。我猜这种格式是指向存储文件的网站上的文件结构的指针，但我不知道如何访问/下载这些文件。还有其他人看过这个并知道如何处理它吗？

Answer 1

import requests

url = 'https://www.gilbertaz.gov/Home/ShowDocument?id=21298'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

试试这个，看它是否有效。否则，请告诉我。

在Python中从https：// xxxx / ShowDocument？id = yyyy下载pdf

1 个答案: