Python:用动词保留撇号

时间:2017-11-11 11:54:58

标签: python tokenize

我想将一个句子列表标记,但是将否定动词保留为唯一的单词。

t = """As aren't good. Bs are good"""
print(word_tokenize(t))
['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good']

我希望“不是”和“是”分开。使用word_tokenize,我得到“不”。其他否定形式也是如此(不能,没有,等)。

我该怎么办? 提前致谢

2 个答案:

答案 0 :(得分:0)

如果要从空格分隔的句子中提取单个单词,请使用Python的split()方法。

t = "As aren't good. Bs are good"
print (t.split())
['As', "aren't", 'good.', 'Bs', 'are', 'good']

您也可以在split()方法中指定其他分隔符。例如,如果你想根据一个句号来标记你的字符串,你可以这样做:

print (t.split("."))
["As aren't good", ' Bs are good']

阅读文档here

答案 1 :(得分:0)

使用re模块拆分。https://docs.python.org/2/library/re.html

import re
t = "As aren't good. Bs are good"
list(filter(None,re.split(r"[\s+.]",t)))

输出:

['As', "aren't", 'good', 'Bs', 'are', 'good']