elasticsearch - Storm-crawler爬行和索引 - Thinbug

Storm-crawler爬行和索引

时间：2017-05-31 20:08:00

标签： elasticsearch web-crawler nutch stormcrawler

我曾与Nutch 1x合作过抓取网站并使用Elasticsearch对数据编制索引。我最近遇到过Storm-crawler并喜欢它，尤其是它的流媒体特性。

我是否必须为我的ES服务器初始化并创建Storm-crawler正在向其发送数据的映射？

使用Nutch，只要我启动并运行ES索引，映射就会自行处理......除了一些微调。对Stormcrawler来说是一样的吗？或者我以前必须初始化索引和映射？

1 个答案:

答案 0 :(得分：1)

很高兴听到你喜欢StormCrawler。

如README和基于ES2.x的video tutorial中所述，您应该使用ES_IndexInit脚本明确设置映射。它可能没有它，但它不是最佳的。