标签: apache-spark apache-spark-sql
我试图将列添加到我从csv文件加载的Spark RDD中,当我调用 withColumn()时它会返回新的RDD,我不想强迫新的RDD创建,我可以以某种方式调整RDD模式(我想象的最好的方法是在模式中添加列,然后逐行映射并为新coulmn添加值)?如果我已经可以以某种方式从RDD中删除列,如果模式已经由CSV文件定义,那么同样的问题就会出现吗?