我一直在使用NLTK
创建一个包含句子的列表,这些句子中有一个模式。我的问题是我无法创建输出列表
我一直在使用findall()
,它使用regexp查找我需要的东西。例如,如果正则表达式或模式为“他曾经”,我需要得到类似以下内容:[“他很好”,“他们说他在那里”,“他在那里”],其中所有这些语句包括的所有实例短语“他是”,我也无法忽略标点符号,并且匹配不区分大小写
f=open('testing.txt')
raw=f.read()
tokens = nltk.word_tokenize(raw)
data = nltk.Text(tokens)
bla = []
bla = data.findall(r"<.*><He><was><.*>")
输出是包含He was的所有语句的打印,包括句子中的标点和区分大小写。但是bla是空的,因为findall()
仅打印,不返回任何内容