应用错误收集

使用Storm Crawler爬行

时间：2016-12-28 09:29:16

标签： web-crawler apache-storm stormcrawler

我们正在尝试实施Storm Crawler来抓取数据。我们已经能够从网址中找到子链接，但我们希望从这些子链接中获取内容。我找不到足够的资源来指导我如何获得它？在这方面任何有用的链接/网站都会有所帮助。感谢。

1 个答案:

答案 0 :(得分：4)

Getting Started，presentations and talks以及各种blog posts都应该有用。

如果提取并解析了子链接（您可以在日志中查看），那么内容将可用于索引或存储，例如WARC。有一个dummy indexer将内容转储到控制台，可以作为起点，或者有一些资源可以在Elasticsearch或SOLR中索引文档。 WARC module也可用于存储网页内容。