在Python中从https:// xxxx / ShowDocument?id = yyyy下载pdf

时间:2017-04-07 16:11:28

标签: python pdf web-scraping

我是网络抓取的新手,但对Python非常熟悉。我正试图在这个链接上找到一种方法来使用Python来下载pdf(或类似的):

https://www.gilbertaz.gov/Home/ShowDocument?id=21298

我已经看到了在线代码(Download pdf using urllib?),了解如何下载具有已知格式的文件,例如http://www.example.com/mypdf.pdf
但是,整个ShowDocument?id=XXXXX格式让我陷入了循环。我猜这种格式是指向存储文件的网站上的文件结构的指针,但我不知道如何访问/下载这些文件。还有其他人看过这个并知道如何处理它吗?

1 个答案:

答案 0 :(得分:0)

import requests

url = 'https://www.gilbertaz.gov/Home/ShowDocument?id=21298'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

试试这个,看它是否有效。否则,请告诉我。