使用spark将csv文件spllit为multiplecsv文件

时间:2016-12-08 17:05:50

标签: apache-spark

我是spark的新手。我有如下的csv文件。基于名称(james,hiran,stalin),我想将数据存储在单独的文件中。

100|james|76|23|24|34
101|hiran|84|32|232|13
102|james|78|13|42|32
103|stalin|78|42|13|23
104|hiran|23|21|22|13
105|hiran|23|32|32|32

我想根据名称(第二个字段)处理此文件。 我想要输出如下。 james out我想存储在一个单独的文件中。 james_output。

100|james|76|23|24|34
102|james|78|13|42|32

Hiran输出应存储在单独的文件中.hiran_output

101|hiran|84|32|232|13
104|hiran|23|21|22|13

斯大林输出应该存储在一个单独的文件中。

103|stalin|78|42|13|23

0 个答案:

没有答案