标签: apache-spark pyspark
我有一个巨大的CSV文件(大约350 MB),我需要将其读入pyspark并将其转换为数据框。最后,我需要对此数据框进行回归,包括多类逻辑回归或决策树。 那么我需要先使用.textFile()方法将此CSV文件转换为RDD吗?我对pyspark世界全新。请指导我。
由于
user9026