提前致谢。
我需要处理Spark应用程序,其中一个Spark作业将创建或准备数据,并且数据将在并行运行的多个spark作业之间共享。
我试图找到解决方案,我遇到了Apache Ignite,但是,要求是使用内存HDFS(缓存HDFS)而不是Ignite。
我试图了解有关DistributedCache的详细信息以及Hadoop中的集中式缓存管理。现在不推荐使用DistributedCache,它主要通过使用job.addCacheFile()或类似的东西与MapReduce作业一起使用。 集中式缓存管理需要在hdfs-size.xml中进行其他配置。
我如何使用Spark内容缓存HDFS或者Spark提供任何API,其中一个Spark作业可以将文件放在HDFS的分布式缓存中,其他Spark作业可以使用它。
你的回答对我很有帮助。
谢谢,
Avinash Deshmukh