我需要访问数千个URL,并从那里下载文件。
我尝试使用urllib
和请求,它们似乎都成功完成,但是当我查看下载的文件时,总是相同,并带有错误消息。
我正在Windows 10计算机上运行python 2.7
。
我尝试了以下操作,并在脚本完成后在计算机上获取文件test4.pdf。
import requests
dls = "http://wbdocsservices.xxOrgNamexx.org/services?I4_SERVICE=FILE_URLS2&RENDITION=Y&I4_DOCID=090224b0828cd94a&stream=Yes"
response = requests.get(dls)
with open("test4.pdf", "wb") as local_file:
local_file.write(response.content)
test4.pdf
无法识别并且无法打开。将文件重命名为test4.txt
时,便可以将其打开。该文件的内容是
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Securid Redirect Page</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="refresh" content="0;url=https://wbssocert.xxOrgNamexx.org/fed/secure/crxredirect.jsp" />
</head>
<body />
</html>
此外,我看到当我单击要下载的链接(在Chrome
或IE
中)时,它会打开pdf文档,但地址字段显示-
我使用urllib
并获得了与上述完全相同的结果。
关于如何下载文件的任何帮助或指示。
一吨