从https链接下载pdf文件,该文件使用Google Analytics(分析)进行下载

时间:2018-09-13 19:12:28

标签: python https google-analytics web-crawler

我正在尝试从https链接下载pdf文件。我尝试了这段代码

import requests 
file_url = "https://www.hindawi.org/books/64790927.pdf"

r = requests.get(file_url, stream = True) 

with open("pythonH.pdf","wb") as pdf: 
    for chunk in r.iter_content(chunk_size=1024): 

         # writing one chunk at a time to pdf file 
         if chunk: 
             pdf.write(chunk) 

但是似乎创建了一个42kb的文件,而不是下载pdf。我尝试将链接粘贴到Web浏览器中,发现该链接重定向到另一个网页。另外,当我检查重定向网页的http源代码时,我发现pdf链接的href上有一个“ onclick”选项。此选项称为“ ga”函数,我认为该函数已被Google Analytics(分析)使用。

我的问题是:如何使用python下载链接而不重定向到另一个网页?或者换句话说,如何处理ga函数下载所需文件? 谢谢。

0 个答案:

没有答案