EC2网络抓取工具

时间:2011-10-20 08:03:20

标签: ruby amazon-s3 amazon-ec2 amazon-web-services

我正在尝试为正在运行的实验收集一些数据。我有一个webscraper,我想在很多Amazon EC2实例上运行,然后将数据转储到S3,以便我以后可以分析它。

目前我有用ruby编写的代码,但可以用其他语言轻松编写代码。我该怎么做呢?

2 个答案:

答案 0 :(得分:1)

为了使用Rightaws gem写入S3,它有一个非常好的s3接口: http://rightaws.rubyforge.org/right_aws_gem_doc/

您的流程可能如下所示:

  • 收集数据
  • 写入每个节点上的某个中间人
  • 将文件发送到S3(使用唯一的命名方案)
  • 重复

或者,使用数据库。然后一切都在同一个地方。你可以使用像mongodb这样的东西,因为它没有模式,但你仍然可以拥有有用的索引(例如,域索引)。这可以达到数百万行。

如果你把东西放在s3中它只是平面文件,那么在另一端搜索数据需要很长时间。

答案 1 :(得分:0)

市场上有很多刮刀

scrapy是最好的工具之一。 它非常简单

scrapinghub.com