Java Spark数据结构,用于从.csv读取记录并执行数据分析

时间:2018-03-08 18:15:03

标签: java apache-spark rdd

我有CSV文件,有数百万行记录(约2GB)和15列。我需要计算此文件中的不同指标,例如中位数,平均值,平均值和其他一些统计数据。

我是Spark的新手,不知道我需要什么Spark Data Structure来保存所有这些记录。我应该创建代表一行数据的类,称为MyClass,然后将数据读入JavaRDD<MyClass>吗?

或者最好使用DataFrame?如何从.csv文件创建DataFrame以及如何从JavaRDD<MyClass>文件创建.csv

更新:如果有问题,.csv文件没有架构。架构存在于单独的.csv文件中。

1 个答案:

答案 0 :(得分:1)

Dataframe是较新推荐的API。除非确实需要较低级别的功能,否则应避免使用RDD。从数据框计算摘要统计数据是微不足道的。查看数据帧的describe()方法和spark-sql中的percentile_approx