应用错误收集

时间：2011-10-20 08:03:20

标签： ruby amazon-s3 amazon-ec2 amazon-web-services

我正在尝试为正在运行的实验收集一些数据。我有一个webscraper，我想在很多Amazon EC2实例上运行，然后将数据转储到S3，以便我以后可以分析它。

目前我有用ruby编写的代码，但可以用其他语言轻松编写代码。我该怎么做呢？

答案 0 :(得分：1)

为了使用Rightaws gem写入S3，它有一个非常好的s3接口： http://rightaws.rubyforge.org/right_aws_gem_doc/

您的流程可能如下所示：

或者，使用数据库。然后一切都在同一个地方。你可以使用像mongodb这样的东西，因为它没有模式，但你仍然可以拥有有用的索引（例如，域索引）。这可以达到数百万行。

如果你把东西放在s3中它只是平面文件，那么在另一端搜索数据需要很长时间。

答案 1 :(得分：0)

市场上有很多刮刀

scrapy是最好的工具之一。它非常简单

scrapinghub.com