我每天需要总结各种用例的客户活动。为了保持/不覆盖,我确保每次写入镶木地板时(按日期划分)都删除该日期存储的所有先前数据。但是,对于某些用例,我在执行上述操作时遇到了问题。
我想将它们都存储在同一分区中。
示例代码
def delete_and_write(file_location):
#1. if file_location exists delete
#2. Write below
df.repartition(1)
.write.partitionBy("date")
.save(file_location, format=file_format, mode='append', header='true')
我想做类似以下的事情
def delete_and_write():
#1. If file with specific meta data info exists delete
#2. Write data with meta data such 1 hour window or so
因此,基本上我不想删除文件(如果文件位于某个位置),而是只删除具有特定信息/元数据的文件部分。这可能吗?例如,如果我要在1小时内编写客户活动,并且此信息已经存在,那么我只想删除此信息,而不要删除文件位置中的所有信息。