标签: apache-spark apache-kafka hdfs yarn spark-structured-streaming
我刚刚注意到,我在YARN上运行的Spark全部在本地运行,并在HDFS上设置了他的工作目录。是的,我拥有所有的Hadoop系统,在我的机器上设置并使用,启动所有脚本,这些脚本将启动所有内容。我将Hadoop用于其他用途。
但是,我从来没有手动设置YARN或Spark的工作目录。令我惊讶的是,我正在使用结构化流式Kafka集成,并且现在checkpoints文件夹是相对于工作目录的,我在HDFS中找到了checkpoint文件夹,但我不知道这怎么可能?