Question

我希望使用Spark RDD处理文本文件，其数据如下：

----------------------------*-----------------------

   state:xx             sub:z    |Basic info

company:abc        rate:123      |

----------------------------*------------------------

                     Date: 12-03-2019

我希望数据采用以下格式：

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符'-'时，它也在删除-即使也从日期开始，即12032019，但是日期应该在12-03-2019，而且我也没有得到将sub:z ,company:abc andrate:123移至新行。请帮助

Answer 1

没有提供更多详细信息，这是我的建议：

只需删除以-开头的行，您可能会得到类似的内容

state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019

然后删除数据|

state:xx sub:z
company:abc rate:123
Date: 12-03-2019

将（空白）替换为\n\r

不确定Date:后面是否有空格

如果是这样，您可以先将'Date: '替换为'Date:'

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助

如何使用Spark处理非结构化文本文件

1 个答案: