应用错误收集

我编写了一个简单的火花流应用程序，它基本上从Kafka读取事件流，并将这些事件存储在Cassandra中，允许对这些数据进行有效查询。这项工作的主要目的是处理当前的实时数据。但是也有存储在hdfs中的历史事件。

我想在历史工作中重用代码处理RDD（流工作的一部分），我想知道根据以下要求阅读历史数据的最佳解决方案是什么：

到目前为止，我已经考虑了两种方法：

Batch Spark作业
- Ad1：有没有比基于文件范围定义RDD更好的方法，而不是为每个文件创建一个RDD，然后将它们联合起来？
- Ad2,3：有可能吗？
Spark Streaming工作
- Ad1：如何有效地定义一系列输入文件？比使用ssc.textFileStream(inputDir)并将我想要处理的文件复制到此目录更好吗？
- Ad2：我认为设置检查点目录就是我要找的。
- Ad3我打算使用spark.streaming.receiver.maxRate属性

我是否正确，常规批量火花不能满足我的要求？我正在等待有关火花流解决方案的建议。