多个火花应用程序中的数据共享

时间:2017-04-24 15:08:37

标签: hadoop caching apache-spark

提前致谢。

我需要处理Spark应用程序,其中一个Spark作业将创建或准备数据,并且数据将在并行运行的多个spark作业之间共享。

我试图找到解决方案,我遇到了Apache Ignite,但是,要求是使用内存HDFS(缓存HDFS)而不是Ignite。

我试图了解有关DistributedCache的详细信息以及Hadoop中的集中式缓存管理。现在不推荐使用DistributedCache,它主要通过使用job.addCacheFile()或类似的东西与MapReduce作业一起使用。 集中式缓存管理需要在hdfs-size.xml中进行其他配置。

我如何使用Spark内容缓存HDFS或者Spark提供任何API,其中一个Spark作业可以将文件放在HDFS的分布式缓存中,其他Spark作业可以使用它。

你的回答对我很有帮助。

谢谢,

Avinash Deshmukh

0 个答案:

没有答案