Question

您好我拥有自己的名为PT7.001S的数据结构，这是一种列式数据存储格式表。现在我想使用Spark在分布式环境中创建MyTable，因为我的数据集在HDFS中。我之前使用过Spark，我很熟悉它。我无法弄清楚如何控制JavaRDD占用n行。这里n可以是80k，90k行等。如果你看到下面的JavaRDD将总是创建一行MyTable如何用n行创建MyTable

myTable

如果我知道如何命令RDD采取某些行，那么我可以使用它以分布式方式创建MyTable。请指导。提前谢谢。

Answer 1

使用sc.textfile加载数据时，spark会自动拆分换行符上的数据并将它们放入分区。所以，你需要做的是使用你的params（80k的东西）进行自定义分区。然后你可以在RDD上使用partitionBy。之后，您应该使用mapPartitions而不是map来生成Rows的数据结构。

一个建议，这似乎是使用Dataframes的情况。如果你在1.3，你看看。它确实已经以分布式方式将元组转换为模式

如何控制Spark JavaRDD <mytable>以获取特定的n行？

1 个答案: