我有一个数据框(从hive表创建)。我已将数据帧转换为RDD,我正在逐行检索。在每一行上,我正在解析每个列值,如果某个特定列无效,则添加到具有列名和值的字典中。
然后我正在检查字典是否为空。如果非空,我想将该行添加到数据帧。再次继续在下一行进行相同的解析。
我使用表架构创建了一个空数据框。是否可以将行添加到空数据框中,以便最后我可以将数据帧保存到error_log_table。
否则,请建议您是否有更好的方法。我正在考虑在原始数据框中添加一个新列,如果该行无效,请修改这些行'列值为' T'。通过这个我可以过滤无效的行。我不确定如何单独更新该特定无效行的新列值。
感谢您的意见和建议。
感谢!!!
答案 0 :(得分:0)
您可以使用withColumn
功能
df.withColumn(new_column_name, function_which_will_return_required_value)