Pypark读取带有60516列的CSV需要更长的时间

时间:2017-11-15 08:14:55

标签: apache-spark dataframe

CSV文件大小为130 MB,但只需读取和缓存文件需要5分钟以上。我将Inferschema设置为False,也花了很多时间。我尝试增加核心,节点,内存但没有用。有什么建议吗?

1 个答案:

答案 0 :(得分:1)

不幸的是,这是一些预期的行为,或者说是Apache Spark的弱点。根据用于查询的字段数量,结构化API(Spark SQL / Dataset)的扩展性很差(取决于上下文和版本复杂性可能会以指数方式增长)。幸运的是,这是不变的开销(不依赖于行数)。

如果您使用非常宽的数据并且需要低延迟,则跳过Spark SQL并返回RDD API可能是明智之举。