从服务器python快速下载xml文件

时间:2016-03-25 13:08:59

标签: php python xml

我从clean-mx下载大型网络钓鱼/病毒网站数据库

网上诱骗数据库= http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒数据库= http://support.clean-mx.de/clean-mx/xmlviruses.php

现在的问题是,每个xml文件大小约为+ 30Mb,下载它们需要大约1分钟,我需要更快地下载它们... 我使用urllib.urlretrieve下载它们。

我需要那些文件来构建包含这些数据库中的url的xml数据库,我试过阅读它们,希望它比使用urllib.urlopen下载它们更快但是它甚至更慢然后下载它们

您是否有想法使用这些文件(下载或读取)以更快的速度构建我的数据库?

注意:只需要使用这些文件,我已经编写了快速构建数据库的代码

1 个答案:

答案 0 :(得分:1)

我尝试在OS X和Linux(在VM中运行)中通过Firefox下载病毒XML,并使用优秀的requests模块(我更喜欢urllib),并且所有方法都采用了很长一段时间下载47M文件 - 事实上,一些进程冻结或崩溃。我有一个60 Mbit / s的互联网连接,从非节流服务器下载类似大小的文件通常只需要10-15秒。因此,我怀疑您的结果不会有太大改善,因为它似乎是一个服务器问题。我建议您与网站所有者联系,看看他们是否愿意与您一起诊断连接问题。

修改

好的,这很奇怪。我重新启动了我的Linux VM并在终端中运行了以下命令:

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下载在不到15秒内完成。所以,我不确定到底发生了什么......