我可以从Ubuntu一次运行多少个并行下载(爬网)?

时间:2018-07-16 10:16:20

标签: indexing download thread-safety web-crawler wget

我正在研究搜寻器,因此需要从许多域下载index.html和robots.txt之类的文件。

当前,我通过触发包含screen的{​​{1}}命令并立即将其发送到后台来启动许多线程。 然后,在触发新的屏幕实例之前,我先统计一下现有的屏幕实例。 Wget设置为2秒超时并尝试2次后失败/退出。

我似乎能够一次执行50个线程/屏幕,一次也执行1000个屏幕而没有太大差异,例如导致下载了相同数量的非空文件。

是否存在可以限制并行下载总数的网络限制(例如tcp连接)?如果是这样,那个近似数字是多少? 还是我可以安全地一次运行1000个屏幕/下载?

我正在使用Ubuntu 14。

0 个答案:

没有答案