我正在尝试为正在运行的实验收集一些数据。我有一个webscraper,我想在很多Amazon EC2实例上运行,然后将数据转储到S3,以便我以后可以分析它。
目前我有用ruby编写的代码,但可以用其他语言轻松编写代码。我该怎么做呢?
答案 0 :(得分:1)
为了使用Rightaws gem写入S3,它有一个非常好的s3接口: http://rightaws.rubyforge.org/right_aws_gem_doc/
您的流程可能如下所示:
或者,使用数据库。然后一切都在同一个地方。你可以使用像mongodb这样的东西,因为它没有模式,但你仍然可以拥有有用的索引(例如,域索引)。这可以达到数百万行。
如果你把东西放在s3中它只是平面文件,那么在另一端搜索数据需要很长时间。
答案 1 :(得分:0)
市场上有很多刮刀
scrapy是最好的工具之一。 它非常简单scrapinghub.com