使用Java从Spark中的csv文件中读取特定列

时间:2016-08-08 06:15:47

标签: java apache-spark

我有一个csv文件,我希望使用csv中的Java读取此Spark文件中的特定列,并形成RDD。到目前为止,我编写的代码会读取每一列并形成RDD

JavaRDD<String> data = sc.textFile("hdfs://file1.csv");

我有一个变量ArrayList<String> arr= new ArrayList<String>();,它有我希望从csv文件中读取的列索引。如何修改我的代码以读取csv文件中的特定列?

示例数据如下:

col1,col2,col3,col4,col5,col6
12,32.4,2,emp1,11,21
17,33.6,2,emp1,11,41
21,32.1,2,emp2,11,60
42,30.4,2,emp3,11,57
37,37.5,2,emp2,11,43

0 个答案:

没有答案