应用错误收集

重用先前AWS EMR步骤中加载的缓存spark数据集

时间：2018-04-19 10:21:32

标签： apache-spark apache-spark-dataset

我正在使用AWS EMR和Spark来处理S3上的数据。我的用例是在新的EMR步骤中访问相同的数据。可以使用dataset.persist()吗？

来实现

以下是一系列步骤：

EMR Step start
dataset = sqlContext.read（）。textFile（“s3a：// path / to / folder”）
dataset.persist（）
EMR步骤完成
新EMR步骤已启动
newDataset = sqlContext.read（）。textFile（“s3a：// path / to / folder”）

在这种情况下，Spark会再次从S3路径读取所有数据，还是会因为调用persist（）而使用内存中可用的数据？

如果没有，是否有其他方式来访问缓存数据？

0 个答案:

没有答案