标签: python pandas apache-spark sparklyr
我从JSON导出的Spark文件有一个奇怪的结构。
JSON
Spark
使用spark_write_json(df, 'file:///mypath/myfile')导出数据,其中df是Spark数据帧。
spark_write_json(df, 'file:///mypath/myfile')
df
我在路径中看到的文件夹名称myfile包含数千个小.part_somenumbers.crc个文件,例如
myfile
.part_somenumbers.crc
.part-0000.crc
.part-0001.crc
我如何将这些内容读入熊猫?这甚至是一个正确的JSON输出吗?