如何将隐藏的CSV文件转换为pyspark数据框

时间:2015-12-30 11:35:58

标签: apache-spark pyspark

我有一个巨大的CSV文件(大约350 MB),我需要将其读入pyspark并将其转换为数据框。最后,我需要对此数据框进行回归,包括多类逻辑回归或决策树。 那么我需要先使用.textFile()方法将此CSV文件转换为RDD吗?我对pyspark世界全新。请指导我。

由于

user9026

0 个答案:

没有答案