如果csv上没有标题,则在pyspark中读取CSV

时间:2018-04-25 09:39:52

标签: pyspark rdd

如何从没有标题的CSV文件创建RDD,以及如何在列上组合2个RDD。不使用Spark SQL

rdd1 = sc.textFile('transactions.csv')

1 个答案:

答案 0 :(得分:0)

这取决于您是否需要DataFrame或RDD。如果是前者尝试:

spark.read.format("csv").option("header", "false").load("transactions.csv")

将自动生成列。如果是后者,请执行以下操作:

rdd1 = sc.textFile('transactions.csv').map(lambda row: row.split(","))