应用错误收集

使用pyspark将大型CSV文件转换为Parquet

时间：2019-10-03 14:51:37

标签： apache-spark pyspark

我将大型CSV文件转换为Parquet文件（pyspark），但看起来不错，直到行数达到一定范围为止，然后在阅读时始终出现以下错误

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

但是，当我将CSV作为Parquet文件写入时，它并没有抱怨。我们应该处理任何大型CSV文件的特定配置吗？

0 个答案:

没有答案