我想将一个句子列表标记,但是将否定动词保留为唯一的单词。
t = """As aren't good. Bs are good"""
print(word_tokenize(t))
['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good']
我希望“不是”和“是”分开。使用word_tokenize,我得到“不”。其他否定形式也是如此(不能,没有,等)。
我该怎么办? 提前致谢
答案 0 :(得分:0)
如果要从空格分隔的句子中提取单个单词,请使用Python的split()
方法。
t = "As aren't good. Bs are good"
print (t.split())
['As', "aren't", 'good.', 'Bs', 'are', 'good']
您也可以在split()
方法中指定其他分隔符。例如,如果你想根据一个句号来标记你的字符串,你可以这样做:
print (t.split("."))
["As aren't good", ' Bs are good']
阅读文档here。
答案 1 :(得分:0)
使用re模块拆分。https://docs.python.org/2/library/re.html
import re
t = "As aren't good. Bs are good"
list(filter(None,re.split(r"[\s+.]",t)))
输出:
['As', "aren't", 'good', 'Bs', 'are', 'good']