应用错误收集

我有大约300GB的完整数据，每天我将获得10GB左右的数据更新。这两个文件均为文本格式。我想根据更新来更新完整数据。如何使用Apache Spark进行分布式处理。

我试图用映射函数创建一个JavaRDD，该函数重写一个调用方法，并将其从两个文件转换为Dataset [Row]。现在，我打算对数据集执行sparkSQL联接查询。这是正确的方法吗，任何人都可以指导我，因为这是我第一次尝试使用Apache Spark。如何在这里实现并行处理？