apache-spark - Spark Python使用现有的RDD

我有一个现有的工作，每天运行并创建一个RDD。直到现在的逻辑是脚本处理每个文件并从空文件开始创建RDD 现在这些文件已经堆积多年，处理时间太长。

我只知道RDD是ETL过程的结果，每天所有文件都被加载到RDD中。我想避免每天加载/转换所有文件，只需将新文件添加到现有RDD中。我想修改Python脚本以继续将新创建的文件中的数据添加到现有的RDD中，并避免从一开始就创建整个RDD。

是否可以使用Python将数据添加到现有RDD？