标签: apache-spark elasticsearch elasticsearch-hadoop
我正在尝试使用https://github.com/elastic/elasticsearch-hadoop
与它分组似乎太慢了。 (因为它必须提取所有记录并进行分组)
您可以进行rest-api调用来在es本身中执行“聚合”并将结果转换为RDD,但确实感到很尴尬。
我想问一下其他人如何使用图书馆来进行分组。 这是一个基本要求,而且非常慢。
也许要扔更多的机器吗?