正则表达式只匹配普通字符加口音

时间:2012-09-03 02:18:39

标签: .net regex

以下是当前比赛 它匹配所有形式的字符,如上面的双点 其他形式的角色的术语是什么? 我只想要a-z,A-Z和重音a-z 什么是正确的正则表达式?

(?:[-_'@\w]+)

2 个答案:

答案 0 :(得分:1)

使用Unicode类别或Unicode块:

\p{L}+

\p{L}代表所有字母字符。

答案 1 :(得分:1)

即使你只是试图匹配英语中常用的单词,你仍然会错过这种方式。例如,诗意的口音(“非常有学问的人”)使用grave accents,而不是你要求的急性口音。英语也因偷窃来自其他语言的词语而臭名昭着,比如说,厄尔尼诺,外观。你会很难找到一些名字,例如: Chloë,以及偶尔会使用像coöperate这样的传统拼写的人(我在技术博客中不止一次地看到这种拼写,人们往往会因为不寻常的细节而变得更加坚持)。

所以你要求的东西通常不是很有用,因此,你极不可能找到预制的东西去做。你只需要自己做这项工作。编写一个与ASCII A-Za-z匹配的正则表达式,然后手动列出您想要的所有其他正文。

(?:[-_'@A-Za-záéíóúý]+)