Storm-crawler爬行和索引

时间:2017-05-31 20:08:00

标签: elasticsearch web-crawler nutch stormcrawler

我曾与Nutch 1x合作过抓取网站并使用Elasticsearch对数据编制索引。我最近遇到过Storm-crawler并喜欢它,尤其是它的流媒体特性。

我是否必须为我的ES服务器初始化并创建Storm-crawler正在向其发送数据的映射?

使用Nutch,只要我启动并运行ES索引,映射就会自行处理......除了一些微调。对Stormcrawler来说是一样的吗?或者我以前必须初始化索引和映射?

1 个答案:

答案 0 :(得分:1)

很高兴听到你喜欢StormCrawler。

README和基于ES2.x的video tutorial中所述,您应该使用ES_IndexInit脚本明确设置映射。它可能没有它,但它不是最佳的。