使用NLTK从文本对象文件中提取包含特定短语的语句

时间:2019-06-17 19:04:20

标签: python nlp nltk text-extraction

我一直在使用NLTK创建一个包含句子的列表,这些句子中有一个模式。我的问题是我无法创建输出列表

我一直在使用findall(),它使用regexp查找我需要的东西。例如,如果正则表达式或模式为“他曾经”,我需要得到类似以下内容:[“他很好”,“他们说他在那里”,“他在那里”],其中所有这些语句包括的所有实例短语“他是”,我也无法忽略标点符号,并且匹配不区分大小写

f=open('testing.txt')
raw=f.read()
tokens = nltk.word_tokenize(raw)
data = nltk.Text(tokens)
bla = []
bla = data.findall(r"<.*><He><was><.*>")

输出是包含He was的所有语句的打印,包括句子中的标点和区分大小写。但是bla是空的,因为findall()仅打印,不返回任何内容

0 个答案:

没有答案