应用错误收集

Nutch或其他框架来抓取Web服务

时间：2015-10-28 18:29:59

标签： web-services mapreduce web-scraping nutch yarn

我正在寻找一个框架，我可以用于以下场景：我有2个网络服务。我打电话给第一个有json响应的服务。在json响应中我有一些ID，我用来调用其他服务，然后我合并服务响应并将其存储在db中。我想每天调用这些服务来更新我的数据库。

我发现的是Nutch，但它看起来像是一个主要是html页面的webcrawler。我可以在上面的场景中使用任何框架吗？我正在寻找一个容错的可销售java框架。

谢谢！

1 个答案:

答案 0 :(得分：2)

你可以使用Nutch，它不仅限于HTML。如果可以通过URL访问某些内容，那么Nutch将获取它，但是您可能需要实现一些自定义解析器和索引器来处理您的内容。

或者，storm-crawler既可扩展又可自定义。您可能会发现它比Nutch更容易学习并且更灵活。在您的用例中，您可以在SC前面拥有一个或多个队列（例如RabbitMQ，AWS SQS等）。种子URL将是第一个服务上使用的种子URL，您可以使用自定义分析筛选器来生成第二个服务的URL。最后，你有一个定制的索引螺栓发送数据以持久存储到数据库。有很多可用于Storm的资源，你可以背负。

HTH