重用先前AWS EMR步骤中加载的缓存spark数据集

时间:2018-04-19 10:21:32

标签: apache-spark apache-spark-dataset

我正在使用AWS EMR和Spark来处理S3上的数据。我的用例是在新的EMR步骤中访问相同的数据。可以使用dataset.persist()吗?

来实现

以下是一系列步骤:

  1. EMR Step start
  2. dataset = sqlContext.read()。textFile(“s3a:// path / to / folder”)
  3. dataset.persist()
  4. EMR步骤完成
  5. 新EMR步骤已启动
  6. newDataset = sqlContext.read()。textFile(“s3a:// path / to / folder”)
  7. 在这种情况下,Spark会再次从S3路径读取所有数据,还是会因为调用persist()而使用内存中可用的数据?

    如果没有,是否有其他方式来访问缓存数据?

0 个答案:

没有答案