从Nutch 1.x将数据映射到Elasticsearch

时间:2015-08-10 17:10:48

标签: indexing elasticsearch mapping nutch

我一直在使用Nutch 1.10进行一些小型网页抓取并使用Elasticsearch 1.4.1索引抓取数据 - 似乎优化索引映射的唯一方法是首先抓取,查看ES执行的映射单独使用映射API进行相应的更改(如有必要)。

有没有人知道在ES索引中优化网页抓取的映射的更有效的解决方案?

更新 甚至可以从Nutch网络爬行更新ES映射吗?

1 个答案:

答案 0 :(得分:0)

这里有两件事需要考虑:

  1. 索引的数据是什么?
  2. 如何正确地将其索引到es
  3. 关于索引数据,您使用的索引插件会影响这一点。例如,基本索引将为每个添加内容主机 url 文档 即可。你可以检查插件的文档或只是看看输出是什么(就像你做的那样)。

    在了解索引数据以及如何在es集群中处理它之后,可以使用正确/优化的映射在es中创建新索引,并确保Nutch将索引到该索引。

    当然,您也可以重新编制已抓取的内容(请参阅this es article)。