我正在Emr集群上运行我的spark作业,并且我一直在使用Hive Tables作为数据源,该数据源将hdfs:///home/hadoop/database
目录用作target-dir
作为数据库目录。
当我运行Spark作业时,它丢失了一个群集节点,并在一段时间后重新启动。
现在,我试图运行我的Hive表,并且它抛出Could not obtain block
。
是因为特定的表存储在节点(有时关闭的节点)中吗?
当Emr群集节点关闭时,它会重新启动并且不存储以前的HDFS数据吗?