在spark数据框中包含包含列的名称的引号

时间:2018-05-02 08:07:15

标签: regex scala apache-spark dataframe

我有一个数据框,其中一些列名包含,。从下面,第二列名称包含,

现在,我想将包含,的列与""括起来。

以下是我的代码:

def testWriteDataframeToCSV (): Unit = {
    val df = generateDF(Array(
      ("1", "4567-01", "one", 1, 1.0, "1", "1.1"),
      ("2", "4568-02", "two", 2, 2.0, "2", "2.2"),
      ("3", "4569-25", "three", 3, 3.0, "3", "3")
    ), Seq("Id", "Course,No", "data1", "data2", "data3", "data4", "data5"))

    val take: Option[Int] = None
    val sample: Option[Float] = None

    val header = df.schema.fieldNames.mkString(",") + "\n"       
  }

当前标题:

header = "Id,Course,No,data1,data2,data3,data4,data5\n"

预期标题:

header = "Id,"Course,No",data1,data2,data3,data4,data5\n"

1 个答案:

答案 0 :(得分:2)

您只需要找到名称中包含,的元素并相应地添加引号。我使用过Scala的三重引号s""" """,所以没有必要逃避每一方的一个引用:

df.schema.fieldNames.map{ f => if (f.contains(",")) s""""${f}"""" else f }.mkString(",")
//String = Id,"Course,No",data1,data2,data3,data4,data5