Question

我有一个大型TSV数据文件，它将事实表及其维度表包含在一起。我想知道它是否可以通过Spark，将单个文件划分/分区为不同的“表”，然后执行连接以规范化它们？

任何帮助我指向正确方向的帮助都会很棒。

Answer 1

在baseRDD上应用过滤器以获得factRDD＆amp; dimensionRDD，然后你可以对它们进行连接。

val baseRDD = sc.textFile("...")  
val factRDD = baseRDD.filter(func1)  
val dimensionsRDD = baseRD.filter(func2)  
factRDD.join(dimentionsRDD)