使用Apache Spark更新大型文本文件

时间:2018-07-14 02:00:10

标签: java apache-spark apache-spark-sql bigdata

我有大约300GB的完整数据,每天我将获得10GB左右的数据更新。这两个文件均为文本格式。我想根据更新来更新完整数据。如何使用Apache Spark进行分布式处理。

我试图用映射函数创建一个JavaRDD,该函数重写一个调用方法,并将其从两个文件转换为Dataset [Row]。现在,我打算对数据集执行sparkSQL联接查询。这是正确的方法吗,任何人都可以指导我,因为这是我第一次尝试使用Apache Spark。 如何在这里实现并行处理?

0 个答案:

没有答案