我正在尝试将spark scala中以竖线分隔的输入文件读取为dataframe。
模式定义是在单独的数据框中定义的。
我需要映射两个数据框,但是我的问题是输入文件的记录不一致,并且在将列值动态映射到记录方面没有任何帮助。
例如:
1 | 1.8 | 20140801T081137 | 115810740 2 | 20140714T060000 | 335 | 22159892 | 3657 | 0.00 ||| 181 2 | 20140714T061500 | 335 | 22159892 | 3657 | 0.00 | 2 | 20140714T063000 | 335 | 22159892 | 3657 | 0.00 ||| 156 2 | 20140714T064500 | 335 | 2 | 20140714T070000 | 335 | 22159892 | 3657 | 0.01 ||| 633 2 | 20140714T071500 | 335 | 22159892 | 3657
高度赞赏任何指针。
火花版本:2.4 斯卡拉:2.11