标签: java apache-spark apache-spark-sql bigdata
我有大约300GB的完整数据,每天我将获得10GB左右的数据更新。这两个文件均为文本格式。我想根据更新来更新完整数据。如何使用Apache Spark进行分布式处理。
我试图用映射函数创建一个JavaRDD,该函数重写一个调用方法,并将其从两个文件转换为Dataset [Row]。现在,我打算对数据集执行sparkSQL联接查询。这是正确的方法吗,任何人都可以指导我,因为这是我第一次尝试使用Apache Spark。 如何在这里实现并行处理?