我是Spark的新手(不到1个月!),我正在使用固定宽度的平面文件原始数据输入。我使用sqlContext使用com.databricks.spark.csv读取文件,然后使用.withColumn根据设置的宽度对行进行子串。
rawData.withColumn("ID"), trim(rawData['c0'].substr(1,8)))
我遇到的问题是最后一个字段的宽度是可变的。它有一个固定的起始点,但可变数量的“数据集”数据类似于20个字符宽。例如,
Row 1 A 1243 B 42225 C 23213
Row 2 A 12425
Row 3 A 111 B 2222 C 3 D 4 E55555
我需要最终读取这些变量字段,只需拉出变量宽度列中每个组的第一个字符,然后进行转置,使输出看起来像:
Row 1 A
Row 1 B
Row 1 C
Row 2 A
...
Row 3 D
Row 3 E
我已经阅读了我需要的固定宽度列,但我被困在可变宽度字段中。
答案 0 :(得分:0)
zipWithIndex和explode可以帮助将数据转换为每个元素的行
sc.textFile ("csv.data").map(_.split("\\s+")).zipWithIndex.toDF("dataArray","rowId").select ($"rowId",explode($"dataArray")).show(false)
+-----+------+
|rowId|col |
+-----+------+
|0 |A |
|0 |1243 |
|0 |B |
|0 |42225 |
|0 |C |
|0 |23213 |
|1 |A |
|1 |12425 |
|2 |A |
|2 |111 |