固定宽度文件中的Spark读取

时间:2017-01-04 18:23:08

标签: csv apache-spark fixed-width

我是Spark的新手(不到1个月!),我正在使用固定宽度的平面文件原始数据输入。我使用sqlContext使用com.databricks.spark.csv读取文件,然后使用.withColumn根据设置的宽度对行进行子串。

    rawData.withColumn("ID"), trim(rawData['c0'].substr(1,8)))

我遇到的问题是最后一个字段的宽度是可变的。它有一个固定的起始点,但可变数量的“数据集”数据类似于20个字符宽。例如,

Row 1  A 1243 B 42225 C 23213 
Row 2  A 12425
Row 3  A 111 B 2222 C 3 D 4 E55555

我需要最终读取这些变量字段,只需拉出变量宽度列中每个组的第一个字符,然后进行转置,使输出看起来像:

Row 1 A
Row 1 B
Row 1 C
Row 2 A
...
Row 3 D
Row 3 E

我已经阅读了我需要的固定宽度列,但我被困在可变宽度字段中。

1 个答案:

答案 0 :(得分:0)

zipWithIndex和explode可以帮助将数据转换为每个元素的行

sc.textFile ("csv.data").map(_.split("\\s+")).zipWithIndex.toDF("dataArray","rowId").select ($"rowId",explode($"dataArray")).show(false)

+-----+------+
|rowId|col   |
+-----+------+
|0    |A     |
|0    |1243  |
|0    |B     |
|0    |42225 |
|0    |C     |
|0    |23213 |
|1    |A     |
|1    |12425 |
|2    |A     |
|2    |111   |