纯HTML中有多少数据可供小欧洲国家使用

时间:2013-03-19 15:53:30

标签: web-crawler

好吧,也许这个问题很奇怪,但我打算只为立陶宛语的网页编写一个爬虫,而我正在尝试估算会有多少数据(因此需要多长时间)。也许其他人有类似的经历?

1 个答案:

答案 0 :(得分:1)

通过查看一些统计数据可以做出非常粗略的估计:

因此,如果你给世界上每个国家的互联网页面按比例拥有(这不是一个正确的假设,但它应该是一个有用的假设),那么立陶宛1万亿页面的0.04%是4亿页面。

4亿* 320KB = 119.20929太字节

如果您压缩页面并假设压缩比为4:1的最佳情况,那么您正在查看大约30 TB。我仍然说你需要一个120太字节才能安全。如果您假设目前每TB价格约为100美元,那么只需硬盘驱动器即可存储3,000到12,000美元来存储这些数据。

现在,问题是:你真的需要所有这些数据吗?