我正在尝试查找文档中的所有非数字单词,以便列出它们并计算它们出现的频率。在这种情况下,“单词”具有以下条件:
's
排除在诸如John's
->匹配John
的所有格中you're
和isn't
等收缩->匹配you're
和isn't
dog-friendly
->连字符分隔单词匹配dog
和friendly
我可以匹配单词并用-分割带连字符的单词
\w+
匹配单词,并忽略's
\w*+(?<!'s)
(尽管这会引起宫缩)
如何结合这两种模式以匹配我的要求?我需要使用非固定长度的lookbehinds吗?
我能想到的最好的方法是:
(?<!')\w+
但是它不能按收缩要求工作