带有elasticsearch4hadoop插件的示例:
SELECT root.toto.toto FROM elasticsearch_table
Spark仅使用buildScan
而不是root
来调用root.toto.toto
(https://github.com/elastic/elasticsearch-hadoop/blob/master/spark/sql-20/src/main/scala/org/elasticsearch/spark/sql/DefaultSource.scala#L233)(因此驾驶员只能选择所需的字段)。
问题似乎与Spark本身有关,也许很多数据源格式(Parquet,ORC ...)都存在相同的问题。
----版本----
我刚刚看到他们正在将其修复为Parquet文件格式:https://github.com/apache/spark/pull/21320