我正在从流中读取数据,然后处理该数据。我有多个项目读取相同的流,然后使用它。 因此,我不想一次又一次地读取相同的流,并且想要创建一个从流中读取的单个项目,然后保留RDD。 然后在所有其他项目中,我可以从那些持久的RDD中读取数据。
是否可以从spark.local.dir读取RDD,如果是,那么如果没有,那么剩下的其他可能的方法是什么,然后读取那些RDD?
还在考虑坚持使用textFiles,但不知道如何持久化对象,以及如何处理大量文件。如果有办法为这些生成的文件设置TTL,请分享。
答案 0 :(得分:0)
坚持到Tachyon。 http://tachyon-project.org。使用saveAsObjectFile(“tachyon:// tachyon-master:19998 / some / path”)或者如果它是数据框,那么你可以使用镶木地板格式而不是目标文件。
清理旧文件是另一个问题。也许一个cron工作就足够了?