您好我拥有自己的名为PT7.001S
的数据结构,这是一种列式数据存储格式表。现在我想使用Spark在分布式环境中创建MyTable
,因为我的数据集在HDFS中。我之前使用过Spark,我很熟悉它。我无法弄清楚如何控制JavaRDD占用n行。这里n可以是80k,90k行等。如果你看到下面的JavaRDD将总是创建一行MyTable如何用n行创建MyTable
myTable
如果我知道如何命令RDD采取某些行,那么我可以使用它以分布式方式创建MyTable。请指导。提前谢谢。
答案 0 :(得分:1)
使用sc.textfile加载数据时,spark会自动拆分换行符上的数据并将它们放入分区。所以,你需要做的是使用你的params(80k的东西)进行自定义分区。然后你可以在RDD上使用partitionBy。之后,您应该使用mapPartitions而不是map来生成Rows的数据结构。
一个建议,这似乎是使用Dataframes的情况。如果你在1.3,你看看。它确实已经以分布式方式将元组转换为模式