我正在使用AWS EMR和Spark来处理S3上的数据。我的用例是在新的EMR步骤中访问相同的数据。可以使用dataset.persist()
吗?
来实现
以下是一系列步骤:
- EMR Step start
- dataset = sqlContext.read()。textFile(“s3a:// path / to / folder”)
- dataset.persist()
- EMR步骤完成
- 新EMR步骤已启动
- newDataset = sqlContext.read()。textFile(“s3a:// path / to / folder”)
醇>
在这种情况下,Spark会再次从S3路径读取所有数据,还是会因为调用persist()而使用内存中可用的数据?
如果没有,是否有其他方式来访问缓存数据?