需要有关Regex的帮助,包括欧洲口音和特殊字符

时间:2016-06-06 10:56:07

标签: regex

这里有大量的文章,但在这种情况下,我无法找到解决方案。

我需要排除任何不包含欧洲字符的字符串,如中文,阿拉伯语,俄语等。

一个正则表达式可以匹配:

  • 字母数字拉丁字符(è,é,ò,ç,à ...
  • 欧洲口音© ...
  • UTF-8 符号€,£,$ ...
  • 货币val stats = sqlContext.sql("select id, n from myTable") stats.write.parquet("myTable.parquet")
  • 空白字符

并排除所有其他角色?

1 个答案:

答案 0 :(得分:1)

你需要的是:

[\p{Sc}\p{So}\p{Mn}\p{P}\p{Z}À-ÿ\w]

下面:

  • \p{Sc}匹配任何货币符号
  • \p{So}匹配不是数学符号,货币符号或组合字符的各种符号
  • \p{Mn}匹配一个与另一个角色合并而不占用额外空间的角色(例如重音符号,变音符号等)
  • \p{P}匹配任何类型的标点字符
  • \p{L}匹配来自任何语言的任何类型的信件
  • \p{Z}匹配任何类型的空格或不可见的分隔符
  • À-ÿ匹配口音
  • \w任何alphanum