我是scala和spark的新手,我正在尝试将Tab saparated文件转换为CSV文件以进一步将其转换为RDD。
实际上我尝试使用sc.textFile
将Tab分隔文件转换为RDD。它正在实施,但之后的结果如.first()
,.take(n)
不是非常系统化,即使使用foreach(println)
也无法正确阅读。
我尝试使用Excel将文件转换为csv但数据大小非常大,它首先没有加载。
是否有任何简单的将Tab分隔文件转换为CSV ,以便获得上述问题的系统结果。
答案 0 :(得分:0)
这是一个迷你教程:
让我们说你的TSV数据是:
let backgroundView = UIView()
backgroundView.backgroundColor = UIColor.green
tableView.backgroundView = backgroundView
将此文件作为字符串的RDD读取:
row11 \t row12 \t row13... \t row1n
row21 \t row22 \t row23... \t row2n
使用制表符分隔符解析它的内容:
val readFile = sc.textFile("FILEPAHT HERE")
将行数组转换为由","
分隔的字符串 val parseRows = readFile.map(row => row.split("\t"))
写出将成为csv的文件:
val outputCsvRdd = parseRows.map(row => row.mkString(","))