我有一个csv
文件,我希望使用csv
中的Java
读取此Spark
文件中的特定列,并形成RDD
。到目前为止,我编写的代码会读取每一列并形成RDD
:
JavaRDD<String> data = sc.textFile("hdfs://file1.csv");
我有一个变量ArrayList<String> arr= new ArrayList<String>();
,它有我希望从csv
文件中读取的列索引。如何修改我的代码以读取csv
文件中的特定列?
示例数据如下:
col1,col2,col3,col4,col5,col6
12,32.4,2,emp1,11,21
17,33.6,2,emp1,11,41
21,32.1,2,emp2,11,60
42,30.4,2,emp3,11,57
37,37.5,2,emp2,11,43