我正在尝试使用Spark CORE(RDD)读取日志文件,但是我没有spark-csv APis可以顺利进行。因此,我必须将其读取为文本文件,然后对其进行调整以形成DF。我已经完成到这里...但是现在所有数据都在单列中,理想情况下它应该创建30多个列。
样本数据:(我在这里只提到了很少,但超过30列)
/var/run/php/php7.0-fpm.sock: socket
到目前为止我尝试过的
ROUTE_NAME,THREADID,REQUESTID,TRANSTATUS,FailureReason,ServiceStartTime,ServiceEndTime
TCPIP,5,F20011,null,FATAL-23,24Jul2017 20:00:11.918,24Jul2017 20:00:20.090
直到这里完整的数据都在DF中,但在单列中。.请指导我如何拆分为多列以进行进一步处理。