如何使用Spark处理非结构化文本文件

时间:2019-08-09 06:40:06

标签: scala apache-spark

我希望使用Spark RDD处理文本文件,其数据如下:

----------------------------*-----------------------

   state:xx             sub:z    |Basic info

company:abc        rate:123      |

----------------------------*------------------------

                     Date: 12-03-2019

我希望数据采用以下格式:

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符'-'时,它也在删除-即使也从日期开始,即12032019,但是日期应该在12-03-2019,而且我也没有得到将sub:z ,company:abc andrate:123移至新行。请帮助

1 个答案:

答案 0 :(得分:1)

没有提供更多详细信息,这是我的建议:

  1. 只需删除以-开头的行,您可能会得到类似的内容
state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
  1. 然后删除数据|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
  1. (空白)替换为\n\r
      

    不确定Date:后面是否有空格

         

    如果是这样,您可以先将'Date: '替换为'Date:'

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助