使用pyspark将大型CSV文件转换为Parquet

时间:2019-10-03 14:51:37

标签: apache-spark pyspark

我将大型CSV文件转换为Parquet文件(pyspark),但看起来不错,直到行数达到一定范围为止,然后在阅读时始终出现以下错误

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

但是,当我将CSV作为Parquet文件写入时,它并没有抱怨。我们应该处理任何大型CSV文件的特定配置吗?

0 个答案:

没有答案