在scala代码中使用的分隔符^ _的相应unicode是什么?

时间:2017-06-13 17:06:33

标签: java scala apache-spark unicode

如果记录由^ A分隔,那么在我的scala代码中,我可以用作" \ u0001"获取每个字段

 val fileLoc         = "/user/cloudera/inputfiles/records.txt"

 val custAccountRDD  =    sc.textFile(fileLoc)

 val splitRDD        =    custAccountRDD.map(elem => elem.split("\\u0001"))

我想要^ _

的等效分隔符

示例输入记录

 4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published

我的问题是如何根据分隔符^ _

拆分这些记录

我直接尝试了以下它没有用

 val splitRDD        =    custAccountRDD.map(elem => elem.split("^_"))

1 个答案:

答案 0 :(得分:0)

这是你要找的吗?

scala> "4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published".split("\\^\\_")
res5: Array[String] = Array(4, 123123123, Any Purchase, ACTIVE, 1, DATA, Published)