如何配置网络抓取工具?

时间:2012-09-15 13:36:11

标签: profiling web-crawler

我有两个略有不同版本的网络抓取工具。我想比较它们的性能(特别是抓取给定域的时间)。我考虑过这两个选项:

  1. 一次运行一个,比较一下所花的时间。
  2. 同时运行它们,比较所花费的时间。
  3. 1的缺点是,当运行第二个网络时,网络可以更慢/更快。 2的缺点是,人们可以劫持大部分带宽并且似乎工作得更快,而其他可以在相同带宽下更好地工作。

    我不知道如何(如果可能的话)限制每个进程的带宽(以及可能的cpu使用?)。如果我能做到这一点,我会给每个人一个公平的份额并同时运行它们,所以它可以工作。

    任何想法如何做到这一点?

1 个答案:

答案 0 :(得分:0)

选择选项1并拍摄大量样本。运行一个星期,然后运行另一个一个星期。网络带宽当然会有所不同,但应该平均。

另一方面,您可能希望找到一种方法来限制您的抓取工具,以便它不会占用您的所有资源。一旦你有了,选项2就成了更好的选择。