我是ElasticSearch的新手,我有一个包含180个字段和1200万行的文件。我已经创建了一个索引并在ElasticSearch和Java Program中输入,但需要1.5小时。有没有其他最好的方法来减少时间将数据加载到ElasticSearch。我已经尝试了一个map reduce程序,但有时会失败并生成重复的条目,并且比顺序程序的时间花费更多的时间。
有人可以给出好的建议吗?
答案 0 :(得分:0)
使用ES-hadoop插件时,您可以禁用推测执行以避免重复输入。使用map-reduce索引数据时,尝试微调批量api的批量大小。 有关详细信息,请参阅: - https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html并尝试更改默认值以获得最佳效果。还尝试增加ES堆大小。您也可以使用ES的apache Tika或mapper附件插件从文件中提取信息。
希望它有所帮助!