Spark使用部分模式

时间:2017-07-13 21:00:05

标签: apache-spark apache-spark-sql spark-dataframe

我需要使用spark来处理相当大的json文件。我不需要json中的所有字段,实际上只想读取其中的一部分(不读取所有字段和项目)。 我想知道如果我可以使用json连接器并给它一个部分读取模式,只有我感兴趣的字段加载。

1 个答案:

答案 0 :(得分:0)

这取决于你的json是否是多行的。目前spark只支持单线上的json作为数据帧。 spark 2.3的下一个版本将支持多行json。

但是对于你的问题。我认为您不能使用部分架构来读取json。您可以先提供完整的架构以作为数据框读入,然后选择将部分架构构建为单独的数据帧所需的特定列。由于spark使用延迟评估并且sql引擎能够推下过滤器,性能也不会差。