我曾与Nutch 1x合作过抓取网站并使用Elasticsearch对数据编制索引。我最近遇到过Storm-crawler并喜欢它,尤其是它的流媒体特性。
我是否必须为我的ES服务器初始化并创建Storm-crawler正在向其发送数据的映射?
使用Nutch,只要我启动并运行ES索引,映射就会自行处理......除了一些微调。对Stormcrawler来说是一样的吗?或者我以前必须初始化索引和映射?
答案 0 :(得分:1)
很高兴听到你喜欢StormCrawler。
如README和基于ES2.x的video tutorial中所述,您应该使用ES_IndexInit脚本明确设置映射。它可能没有它,但它不是最佳的。