应用错误收集

Java Spark数据结构，用于从.csv读取记录并执行数据分析

时间：2018-03-08 18:15:03

标签： java apache-spark rdd

我有CSV文件，有数百万行记录（约2GB）和15列。我需要计算此文件中的不同指标，例如中位数，平均值，平均值和其他一些统计数据。

我是Spark的新手，不知道我需要什么Spark Data Structure来保存所有这些记录。我应该创建代表一行数据的类，称为MyClass，然后将数据读入JavaRDD<MyClass>吗？

或者最好使用DataFrame？如何从.csv文件创建DataFrame以及如何从JavaRDD<MyClass>文件创建.csv？

更新：如果有问题，.csv文件没有架构。架构存在于单独的.csv文件中。

1 个答案:

答案 0 :(得分：1)

Dataframe是较新推荐的API。除非确实需要较低级别的功能，否则应避免使用RDD。从数据框计算摘要统计数据是微不足道的。查看数据帧的describe()方法和spark-sql中的percentile_approx。