Question

我正在尝试从包含小说文本的文件中读取。我想阅读每一个连续的单词，但当然小说中有标点符号的事实使这很难。

我需要阅读小说中的单词，所以请忽略“，”，“！”等字符。和“？”，但我需要包括某些非字母字符，例如撇号，它们实际上是单词的一部分。

我对正则表达式不太满意，但我的感觉是这个正则表达式只能抓取字符，但不考虑撇号：

[^A-Za-z]+

任何人都可以帮我获得一个正则表达式，它会用单词划分，忽略标点符号，但保留撇号和构成单词部分的其他字符吗？

Answer 1

您的模式应如下所示：

\b[a-zA-Z]+[\']*[a-zA-Z]*\b

它解释了单词边界并允许1个撇号。其他特殊字符可以放入第二组方括号中。

Answer 2

只需在[]括号中包含您想要包含的其他特殊字符即可。某些字符可能需要转义。我在下面为你提供了撇号：

/([^A-Za-z']+)/