使用spark RDD(scala)将单列数据拆分为多列

时间:2018-08-01 08:15:07

标签: scala apache-spark

我正在尝试使用Spark CORE(RDD)读取日志文件,但是我没有spark-csv APis可以顺利进行。因此,我必须将其读取为文本文件,然后对其进行调整以形成DF。我已经完成到这里...但是现在所有数据都在单列​​中,理想情况下它应该创建30多个列。

样本数据:(我在这里只提到了很少,但超过30列)

/var/run/php/php7.0-fpm.sock: socket

到目前为止我尝试过的

ROUTE_NAME,THREADID,REQUESTID,TRANSTATUS,FailureReason,ServiceStartTime,ServiceEndTime
TCPIP,5,F20011,null,FATAL-23,24Jul2017 20:00:11.918,24Jul2017 20:00:20.090

直到这里完整的数据都在DF中,但在单列中。.请指导我如何拆分为多列以进行进一步处理。

0 个答案:

没有答案