标签: apache-spark hdfs spark-streaming
我正在运行Spark流作业并将数据以orc文件格式保存到hdfs。Spark正在为其创建元数据,并且它不断增加,由于堆内存问题[当medatadata .compact文件大小达到300MB]。
我采用的解决方法-删除元数据文件夹和检查点目录并开始工作。
有什么解决方案,以便我们可以清除元数据而无需重新启动作业