我编写了以下函数:
import scala.util.matching.Regex
val COL1 = "COL1"
val COL2 = "COL2"
val COL3 = "COL3"
val COL4 = "COL4"
val COL5 = "COL5"
val reg = ".+-([\w\d]{3})-([\d\w]{3})-([\d\w]{3})-([\w]+)$-([\w]+)".r.unanchored
val dataExtraction: String => Map[String, String] = {
string: String => {
string match {
case reg(col1, col2, col3, col4, col5) =>
Map(COL1 -> col1, COL2 -> col2, COL3 -> col3, COL4 -> col4 ,COL5 -> col5 )
case _ => Map(COL1 -> "", COL2 -> "", COL3 -> "", COL4 -> "" ,COL5 -> "" )
}
}
}
应该解析“ dep-gll-cde3-l4-result”或“ cde3-gll-dep-l4-result”之类的字符串
任何想法如何定义同时解析这两者的正则表达式
答案 0 :(得分:3)
您可以使用以下正则表达式:
val reg = """(\w{3,4})-(\w{3})-(\w{3,4})-(\w+)-(\w+)""".r
您无需使其取消锚定,因为该模式与您的整个输入匹配。
请注意,在三引号引起来的字符串文字中,您可以使用单个\
定义反斜杠,在这种情况下,它们需要加倍。另外,请参阅似乎足以满足您提供的情况的{3,4}
量词。