应用错误收集

将条目插入ElasticSearch的最佳方法是什么？

时间：2016-01-11 14:00:03

标签： java elasticsearch elasticsearch-hadoop

我是ElasticSearch的新手，我有一个包含180个字段和1200万行的文件。我已经创建了一个索引并在ElasticSearch和Java Program中输入，但需要1.5小时。有没有其他最好的方法来减少时间将数据加载到ElasticSearch。我已经尝试了一个map reduce程序，但有时会失败并生成重复的条目，并且比顺序程序的时间花费更多的时间。

有人可以给出好的建议吗？

1 个答案:

答案 0 :(得分：0)

使用ES-hadoop插件时，您可以禁用推测执行以避免重复输入。使用map-reduce索引数据时，尝试微调批量api的批量大小。有关详细信息，请参阅： - https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html并尝试更改默认值以获得最佳效果。还尝试增加ES堆大小。您也可以使用ES的apache Tika或mapper附件插件从文件中提取信息。

希望它有所帮助！