Nutch或其他框架来抓取Web服务

时间:2015-10-28 18:29:59

标签: web-services mapreduce web-scraping nutch yarn

我正在寻找一个框架,我可以用于以下场景:我有2个网络服务。我打电话给第一个有json响应的服务。在json响应中我有一些ID,我用来调用其他服务,然后我合并服务响应并将其存储在db中。我想每天调用这些服务来更新我的数据库。

我发现的是Nutch,但它看起来像是一个主要是html页面的webcrawler。我可以在上面的场景中使用任何框架吗?我正在寻找一个容错的可销售java框架。

谢谢!

1 个答案:

答案 0 :(得分:2)

你可以使用Nutch,它不仅限于HTML。如果可以通过URL访问某些内容,那么Nutch将获取它,但是您可能需要实现一些自定义解析器和索引器来处理您的内容。

或者,storm-crawler既可扩展又可自定义。您可能会发现它比Nutch更容易学习并且更灵活。在您的用例中,您可以在SC前面拥有一个或多个队列(例如RabbitMQ,AWS SQS等)。种子URL将是第一个服务上使用的种子URL,您可以使用自定义分析筛选器来生成第二个服务的URL。最后,你有一个定制的索引螺栓发送数据以持久存储到数据库。有很多可用于Storm的资源,你可以背负。

HTH