我希望使用Spark RDD
处理文本文件,其数据如下:
----------------------------*-----------------------
state:xx sub:z |Basic info
company:abc rate:123 |
----------------------------*------------------------
Date: 12-03-2019
我希望数据采用以下格式:
State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019
当我尝试使用data1=data.ReplaceAll('-',"")
函数删除特殊字符'-'时,它也在删除-即使也从日期开始,即12032019,但是日期应该在12-03-2019,而且我也没有得到将sub:z ,company:abc andrate:123
移至新行。请帮助
答案 0 :(得分:1)
没有提供更多详细信息,这是我的建议:
-
开头的行,您可能会得到类似的内容state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
(空白)替换为\n\r
不确定
Date:
后面是否有空格如果是这样,您可以先将
'Date: '
替换为'Date:'
state:xx
sub:z
company:abc
rate:123
Date:12-03-2019
希望这会有所帮助