Question

我从clean-mx下载大型网络钓鱼/病毒网站数据库

网上诱骗数据库= http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒数据库= http://support.clean-mx.de/clean-mx/xmlviruses.php

现在的问题是，每个xml文件大小约为+ 30Mb，下载它们需要大约1分钟，我需要更快地下载它们... 我使用urllib.urlretrieve下载它们。

我需要那些文件来构建包含这些数据库中的url的xml数据库，我试过阅读它们，希望它比使用urllib.urlopen下载它们更快但是它甚至更慢然后下载它们

您是否有想法使用这些文件（下载或读取）以更快的速度构建我的数据库？

注意：只需要使用这些文件，我已经编写了快速构建数据库的代码

Answer 1

我尝试在OS X和Linux（在VM中运行）中通过Firefox下载病毒XML，并使用优秀的requests模块（我更喜欢urllib），并且所有方法都采用了很长一段时间下载47M文件 - 事实上，一些进程冻结或崩溃。我有一个60 Mbit / s的互联网连接，从非节流服务器下载类似大小的文件通常只需要10-15秒。因此，我怀疑您的结果不会有太大改善，因为它似乎是一个服务器问题。我建议您与网站所有者联系，看看他们是否愿意与您一起诊断连接问题。

修改

好的，这很奇怪。我重新启动了我的Linux VM并在终端中运行了以下命令：

import requests url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?" r = requests.get(url).content print(r)

下载在不到15秒内完成。所以，我不确定到底发生了什么......

从服务器python快速下载xml文件

1 个答案: