pyspark:是否可以向空数据框或rdd添加行

时间:2016-06-30 14:07:27

标签: pyspark spark-dataframe

我有一个数据框(从hive表创建)。我已将数据帧转换为RDD,我正在逐行检索。在每一行上,我正在解析每个列值,如果某个特定列无效,则添加到具有列名和值的字典中。

然后我正在检查字典是否为空。如果非空,我想将该行添加到数据帧。再次继续在下一行进行相同的解析。

我使用表架构创建了一个空数据框。是否可以将行添加到空数据框中,以便最后我可以将数据帧保存到error_log_table。

否则,请建议您是否有更好的方法。我正在考虑在原始数据框中添加一个新列,如果该行无效,请修改这些行'列值为' T'。通过这个我可以过滤无效的行。我不确定如何单独更新该特定无效行的新列值。

感谢您的意见和建议。

感谢!!!

1 个答案:

答案 0 :(得分:0)

您可以使用withColumn功能

df.withColumn(new_column_name, function_which_will_return_required_value)