如果只在一台COTS机器上运行,那么网络刮板有多好?

时间:2015-07-21 01:59:39

标签: web-scraping

我过去常常使用网络抓取工具。我用它们来映射网站中的所有链接以及网站中的所有页面。然而,我意识到“在理论上”我可以释放这个系统,并让它在链接后跟踪链接并映射整个互联网。当然,互联网上存在的数百万个页面需要比我以前使用的小型集合花费更长的时间...但是需要多长时间?

在典型的机器上,让我们说8GB Ram,i7 3Ghz,一台机器可以通过多少链接进行搜索?

1 个答案:

答案 0 :(得分:4)

映射整个互联网?不在您的典型机器上。互联网doubles in size about every five years因此,如果您的流程需要五年以上,那么它永远不会走到尽头。 @jdphenix计算互联网的大小为79年,因为它是今天所以当你的过程结束时,你将映射大约0.003%的互联网。

那么在典型的机器上需要多长时间?无限的时间。如果没有大量的计算能力,这不是一场可以赢得的战斗。