Python - 从https下载文件

时间:2014-12-08 13:19:41

标签: python download beautifulsoup

我正在使用Python和BeautifoulSoup。我也在这里从网上下载过滤文件(https)。这是我的代码部分如何下载文件。 我完全得到了超过480个文件。 450个文件正在正确下载,但其余文件中没有内容。它只包含错误404或文件已完全损坏且无法打开。

if filename().endswith('Doc'):
   print(filename)
   file = open('C:/RC/' + filename, 'wb')
   file.write(one_file.content)
        file.close()
else:
   filename.append(one_file.text.strip())

您是否知道可能导致其余文件出错的原因?

1 个答案:

答案 0 :(得分:0)

您的某些请求似乎失败了。因此,答案在于代码的其他部分,即发出请求的部分。首先要做的是验证响应代码,并在代码404上实现重试功能。接下来要做的就是在请求之间添加一个延迟,因为它可能是服务器拒绝过多的请求。时间短。还有一件事可能是您的用户代理没有正确设置,并且您在某些域上被拒绝(假设您正在从多个域下载文件)。这些只是几个可能的原因,但可能还有其他原因。