标签: apache-spark pyspark
我有一个现有的工作,每天运行并创建一个RDD。 直到现在的逻辑是脚本处理每个文件并从空文件开始创建RDD 现在这些文件已经堆积多年,处理时间太长。
我只知道RDD是ETL过程的结果,每天所有文件都被加载到RDD中。 我想避免每天加载/转换所有文件,只需将新文件添加到现有RDD中。 我想修改Python脚本以继续将新创建的文件中的数据添加到现有的RDD中,并避免从一开始就创建整个RDD。
是否可以使用Python将数据添加到现有RDD?