如何从没有标题的CSV文件创建RDD,以及如何在列上组合2个RDD。不使用Spark SQL
rdd1 = sc.textFile('transactions.csv')
答案 0 :(得分:0)
这取决于您是否需要DataFrame或RDD。如果是前者尝试:
spark.read.format("csv").option("header", "false").load("transactions.csv")
将自动生成列。如果是后者,请执行以下操作:
rdd1 = sc.textFile('transactions.csv').map(lambda row: row.split(","))