我在.txt
文件中有几个百万个IPv4地址,如下所示:
x.y.z.w
x.y.z.w
x.y.z.w
...
我的目标是检查每个地址,如果后面有一个真实的网站或该地址是假的。
我看到帖子仅处理URL(而不是地址),实际上我尝试了上述方法,先将IP地址反向DNS解析为URL,然后使用它来确定网站是否存在。但是,每个地址大约需要2秒钟,对于所有地址来说都需要几个月,当然我没有时间。
最好,最快的方法是什么?
我非常喜欢Python,但是使用C可以大大提高速度吗?
谢谢。
答案 0 :(得分:1)
除非这些网站为virtually hosted,否则IP地址与主机名没有任何不同。但是,在虚拟主机的情况下,使用反向DNS不能为您提供帮助,因为可以将多个站点托管在相同的IP地址上,并且您现在要查询的站点可能已关闭。另外,并非所有网站都会在反向DNS记录中注册,因此您可能会错过一些网站。
我不知道您使用什么方法来确定网站是否托管在某个地址,但是无论如何,这样做可能是受IO限制而不是CPU限制。这意味着使用C可能会在性能上带来微不足道的改善,因为该程序将花费大部分时间等待网站的响应。
您可以提高性能的方法是:
减少超时。如果您将默认超时用于网络操作,则可能会发现自己等待响应的时间超出了您的期望。
并行化任务。尝试使用threading
或asyncio
模块。它们被构建为允许任务并行化,asyncio
专门用于IO绑定程序。
此外,考虑使用已经实现了这些功能的工具,例如nmap
。