应用错误收集

提前致谢。

我需要处理Spark应用程序，其中一个Spark作业将创建或准备数据，并且数据将在并行运行的多个spark作业之间共享。

我试图找到解决方案，我遇到了Apache Ignite，但是，要求是使用内存HDFS（缓存HDFS）而不是Ignite。

我试图了解有关DistributedCache的详细信息以及Hadoop中的集中式缓存管理。现在不推荐使用DistributedCache，它主要通过使用job.addCacheFile（）或类似的东西与MapReduce作业一起使用。集中式缓存管理需要在hdfs-size.xml中进行其他配置。

我如何使用Spark内容缓存HDFS或者Spark提供任何API，其中一个Spark作业可以将文件放在HDFS的分布式缓存中，其他Spark作业可以使用它。

你的回答对我很有帮助。

谢谢，

Avinash Deshmukh