使用Storm Crawler爬行

时间:2016-12-28 09:29:16

标签: web-crawler apache-storm stormcrawler

我们正在尝试实施Storm Crawler来抓取数据。我们已经能够从网址中找到子链接,但我们希望从这些子链接中获取内容。我找不到足够的资源来指导我如何获得它?在这方面任何有用的链接/网站都会有所帮助。感谢。

1 个答案:

答案 0 :(得分:4)

Getting Startedpresentations and talks以及各种blog posts都应该有用。

如果提取并解析了子链接(您可以在日志中查看),那么内容将可用于索引或存储,例如WARC。有一个dummy indexer将内容转储到控制台,可以作为起点,或者有一些资源可以在Elasticsearch或SOLR中索引文档。 WARC module也可用于存储网页内容。