Question

我有很多带文本限定符的分隔文件（每列开头和结尾都有双引号）。定界不一致，即可以有任何分隔，如逗号（，），管道（|），〜，制表符（\ t）。

我需要使用spark.read.textFile（单列）读取此文件，然后使用双引号删除文本限定符以及分隔符（需要用空格替换分隔符）。在这里我想要考虑列，即我不应该分成列

下面是3列ID，名称和DESC的测试数据。 DESC列有额外的分隔符。

val y = """4 , "XAA" , "sf,sd\nsdfsf""""
val pattern = """"[^"]*(?:""[^"]*)*"""".r
val output = pattern replaceAllIn (y, m => m.group(0).replaceAll("[,\n]", " "))

我上面的代码适用于静态值。但我无法申请DF。

＆＃34; ID＆＃34;＆＃34;名称＆＃34;＆＃34; DESC＆＃34;
  ＆＃34; 1＆＃34; ，＆＃34; ABC＆＃34;，＆＃34; A，B C＆＃34;
  ＆＃34; 2＆＃34; ，＆＃34; XYZ＆＃34; ，＆＃34; ABC很烦恼＆＃34;
  ＆＃34; 3＆＃34; ，＆＃34; YYZ＆＃34; ，＆＃34; FER＆＃34; sfsf，sfd f＆＃34;
  4，＆＃34; XAA＆＃34; ，＆＃34; sf，sd sdfsf＆＃34;

我需要输出

ID，名称，DESC
   1，ABC，A B C
   2，XYZ，ABC很麻烦    3，YYZ，FER＆＃34; sfsf sfd f
   4，XAA，sf sd sdfsf

先谢谢。

解决

var SourceFile = spark.read.textFile("/data/test.csv")
val SourceFileDF= SourceFile.withColumn("value", RemoveQualifier(col("value")))
def RemoveQualifier = udf((RawData:String)=>
  {
    var Data = RawData

    val pattern = """"[^"]*(?:""[^"]*)*"""".r

    Data  = pattern replaceAllIn (Data , m => m.group(0).replaceAll("[,]", " "))
   Data 
  })

感谢。

Answer 1

你可以像这样使用两个replaceAll（）：

val output = pattern replaceAllIn (y, m => m.group(0).replaceAll("[,\\\\n]", " ").replaceAll("\"|\"", ""))

输出：String = 4，XAA，sf sd sdfsf

如何使用Scala中的TextQualifier文件的双引号删除双引号和额外分隔符

1 个答案: