我正在尝试从包含小说文本的文件中读取。我想阅读每一个连续的单词,但当然小说中有标点符号的事实使这很难。
我需要阅读小说中的单词,所以请忽略“,”,“!”等字符。和“?”,但我需要包括某些非字母字符,例如撇号,它们实际上是单词的一部分。
我对正则表达式不太满意,但我的感觉是这个正则表达式只能抓取字符,但不考虑撇号:
[^A-Za-z]+
任何人都可以帮我获得一个正则表达式,它会用单词划分,忽略标点符号,但保留撇号和构成单词部分的其他字符吗?
答案 0 :(得分:1)
您的模式应如下所示:
\b[a-zA-Z]+[\']*[a-zA-Z]*\b
它解释了单词边界并允许1个撇号。其他特殊字符可以放入第二组方括号中。
答案 1 :(得分:-1)
只需在[]
括号中包含您想要包含的其他特殊字符即可。某些字符可能需要转义。我在下面为你提供了撇号:
/([^A-Za-z']+)/