这里有大量的文章,但在这种情况下,我无法找到解决方案。
我需要排除任何不包含欧洲字符的字符串,如中文,阿拉伯语,俄语等。
一个正则表达式可以匹配:
è,é,ò,ç,à ...
)© ...
)€,£,$ ...
)val stats = sqlContext.sql("select id, n from myTable")
stats.write.parquet("myTable.parquet")
)并排除所有其他角色?
答案 0 :(得分:1)
你需要的是:
[\p{Sc}\p{So}\p{Mn}\p{P}\p{Z}À-ÿ\w]
下面:
\p{Sc}
匹配任何货币符号\p{So}
匹配不是数学符号,货币符号或组合字符的各种符号\p{Mn}
匹配一个与另一个角色合并而不占用额外空间的角色(例如重音符号,变音符号等)\p{P}
匹配任何类型的标点字符\p{L}
匹配来自任何语言的任何类型的信件\p{Z}
匹配任何类型的空格或不可见的分隔符À-ÿ
匹配口音\w
任何alphanum