读取管道定界文件并与csv方案合并

时间:2019-11-14 16:48:41

标签: apache-spark-sql

我正在尝试将spark scala中以竖线分隔的输入文件读取为dataframe。

模式定义是在单独的数据框中定义的。

我需要映射两个数据框,但是我的问题是输入文件的记录不一致,并且在将列值动态映射到记录方面没有任何帮助。

例如:

1 | 1.8 | 20140801T081137 | 115810740 2 | 20140714T060000 | 335 | 22159892 | 3657 | 0.00 ||| 181 2 | 20140714T061500 | 335 | 22159892 | 3657 | 0.00 | 2 | 20140714T063000 | 335 | 22159892 | 3657 | 0.00 ||| 156 2 | 20140714T064500 | 335 | 2 | 20140714T070000 | 335 | 22159892 | 3657 | 0.01 ||| 633 2 | 20140714T071500 | 335 | 22159892 | 3657

高度赞赏任何指针。

火花版本:2.4 斯卡拉:2.11

0 个答案:

没有答案