我需要使用spark来处理相当大的json文件。我不需要json中的所有字段,实际上只想读取其中的一部分(不读取所有字段和项目)。 我想知道如果我可以使用json连接器并给它一个部分读取模式,只有我感兴趣的字段加载。
答案 0 :(得分:0)
这取决于你的json是否是多行的。目前spark只支持单线上的json作为数据帧。 spark 2.3的下一个版本将支持多行json。
但是对于你的问题。我认为您不能使用部分架构来读取json。您可以先提供完整的架构以作为数据框读入,然后选择将部分架构构建为单独的数据帧所需的特定列。由于spark使用延迟评估并且sql引擎能够推下过滤器,性能也不会差。