是否有一种好的(不可变的)方法来为RDD预定义列,或从RDD中删除列?

时间:2016-03-25 22:09:21

标签: apache-spark apache-spark-sql

我试图将列添加到我从csv文件加载的Spark RDD中,当我调用 withColumn()时它会返回新的RDD,我不想强​​迫新的RDD创建,我可以以某种方式调整RDD模式(我想象的最好的方法是在模式中添加列,然后逐行映射并为新coulmn添加值)?如果我已经可以以某种方式从RDD中删除列,如果模式已经由CSV文件定义,那么同样的问题就会出现吗?

0 个答案:

没有答案