将制表符分隔文件转换为csv文件

时间:2016-09-06 11:35:31

标签: scala csv

我是scala和spark的新手,我正在尝试将Tab saparated文件转换为CSV文件以进一步将其转换为RDD。 实际上我尝试使用sc.textFile将Tab分隔文件转换为RDD。它正在实施,但之后的结果如.first().take(n)不是非常系统化,即使使用foreach(println)也无法正确阅读。 我尝试使用Excel将文件转换为csv但数据大小非常大,它首先没有加载。 是否有任何简单的将Tab分隔文件转换为CSV ,以便获得上述问题的系统结果。

1 个答案:

答案 0 :(得分:0)

这是一个迷你教程:

让我们说你的TSV数据是: let backgroundView = UIView() backgroundView.backgroundColor = UIColor.green tableView.backgroundView = backgroundView 将此文件作为字符串的RDD读取:

row11 \t row12 \t row13... \t row1n row21 \t row22 \t row23... \t row2n

使用制表符分隔符解析它的内容:

val readFile = sc.textFile("FILEPAHT HERE")

将行数组转换为由","

分隔的字符串

val parseRows = readFile.map(row => row.split("\t"))

写出将成为csv的文件:

val outputCsvRdd = parseRows.map(row => row.mkString(","))