Question

我正在尝试使用python regex将文本文件拆分为一组单词。为实现此目的，我尝试将re.findall()与\w+标记一起使用。

我的问题是，正则表达式正在拆分包含单引号的单词。以“＆＃34;他＆＃34;

这个词为例

我的功能是把它分成两个单独的单词; he和s

如何重写此python正则表达式，以便包含单引号的单词不会分成两个？

Answer 1

test = "this is it's"
regex = re.compile("\w+'?\w+?")
regex.findall(test)

给我=＆gt; [＆＃39;这＆＃39;，＆＃39;＆＃39;，＆＃34;＆＃39;＆＃34;]