应用错误收集

时间：2015-06-16 09:03:22

标签： apache-spark spark-streaming

我正在从流中读取数据，然后处理该数据。我有多个项目读取相同的流，然后使用它。因此，我不想一次又一次地读取相同的流，并且想要创建一个从流中读取的单个项目，然后保留RDD。然后在所有其他项目中，我可以从那些持久的RDD中读取数据。

是否可以从spark.local.dir读取RDD，如果是，那么如果没有，那么剩下的其他可能的方法是什么，然后读取那些RDD？

还在考虑坚持使用textFiles，但不知道如何持久化对象，以及如何处理大量文件。如果有办法为这些生成的文件设置TTL，请分享。

答案 0 :(得分：0)

坚持到Tachyon。 http://tachyon-project.org。使用saveAsObjectFile（“tachyon：// tachyon-master：19998 / some / path”）或者如果它是数据框，那么你可以使用镶木地板格式而不是目标文件。

清理旧文件是另一个问题。也许一个cron工作就足够了？