我正在尝试使用python regex将文本文件拆分为一组单词。为实现此目的,我尝试将re.findall()
与\w+
标记一起使用。
我的问题是,正则表达式正在拆分包含单引号的单词。以“"他"
这个词为例我的功能是把它分成两个单独的单词; he
和s
如何重写此python正则表达式,以便包含单引号的单词不会分成两个?
答案 0 :(得分:1)
test = "this is it's"
regex = re.compile("\w+'?\w+?")
regex.findall(test)
给我=> ['这','',"'"]