应用错误收集

我正在尝试使用Spark CORE（RDD）读取日志文件，但是我没有spark-csv APis可以顺利进行。因此，我必须将其读取为文本文件，然后对其进行调整以形成DF。我已经完成到这里...但是现在所有数据都在单列中，理想情况下它应该创建30多个列。

样本数据：（我在这里只提到了很少，但超过30列）

/var/run/php/php7.0-fpm.sock: socket

到目前为止我尝试过的

ROUTE_NAME,THREADID,REQUESTID,TRANSTATUS,FailureReason,ServiceStartTime,ServiceEndTime
TCPIP,5,F20011,null,FATAL-23,24Jul2017 20:00:11.918,24Jul2017 20:00:20.090

直到这里完整的数据都在DF中，但在单列中。.请指导我如何拆分为多列以进行进一步处理。

使用spark RDD（scala）将单列数据拆分为多列

0 个答案: