我从clean-mx下载大型网络钓鱼/病毒网站数据库
网上诱骗数据库= http://support.clean-mx.de/clean-mx/xmlphishing.php
病毒数据库= http://support.clean-mx.de/clean-mx/xmlviruses.php
现在的问题是,每个xml文件大小约为+ 30Mb,下载它们需要大约1分钟,我需要更快地下载它们...
我使用urllib.urlretrieve
下载它们。
我需要那些文件来构建包含这些数据库中的url的xml数据库,我试过阅读它们,希望它比使用urllib.urlopen
下载它们更快但是它甚至更慢然后下载它们
您是否有想法使用这些文件(下载或读取)以更快的速度构建我的数据库?
注意:只需要使用这些文件,我已经编写了快速构建数据库的代码
答案 0 :(得分:1)
我尝试在OS X和Linux(在VM中运行)中通过Firefox下载病毒XML,并使用优秀的requests
模块(我更喜欢urllib
),并且所有方法都采用了很长一段时间下载47M文件 - 事实上,一些进程冻结或崩溃。我有一个60 Mbit / s的互联网连接,从非节流服务器下载类似大小的文件通常只需要10-15秒。因此,我怀疑您的结果不会有太大改善,因为它似乎是一个服务器问题。我建议您与网站所有者联系,看看他们是否愿意与您一起诊断连接问题。
修改强>
好的,这很奇怪。我重新启动了我的Linux VM并在终端中运行了以下命令:import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)
下载在不到15秒内完成。所以,我不确定到底发生了什么......