应用错误收集

我正在尝试将spark scala中以竖线分隔的输入文件读取为dataframe。

模式定义是在单独的数据框中定义的。

我需要映射两个数据框，但是我的问题是输入文件的记录不一致，并且在将列值动态映射到记录方面没有任何帮助。

例如：

1 | 1.8 | 20140801T081137 | 115810740 2 | 20140714T060000 | 335 | 22159892 | 3657 | 0.00 ||| 181 2 | 20140714T061500 | 335 | 22159892 | 3657 | 0.00 | 2 | 20140714T063000 | 335 | 22159892 | 3657 | 0.00 ||| 156 2 | 20140714T064500 | 335 | 2 | 20140714T070000 | 335 | 22159892 | 3657 | 0.01 ||| 633 2 | 20140714T071500 | 335 | 22159892 | 3657

高度赞赏任何指针。

火花版本：2.4 斯卡拉：2.11

读取管道定界文件并与csv方案合并

0 个答案: