Python无法找到块的模式

时间:2016-11-16 14:37:25

标签: python nltk tokenize chunks

我正在尝试从中提取特殊的POS标签块,以及来自的许多块 不同的模式运作良好,可以使用它们找到类似的句子。但是当我看到标签中确定的标签的确切顺序作为输出作为块输出时,问题就出现了,但机器找不到具有我定义的名称的标签。例如:

{<VB><RB.?><VB><NN.?>+<IN>*<JJ.?>*<NN.?>*} 

这很容易找到以下句子:

Do not take money from internal relations

但是当我有另一种模式时:

{<IN><DT>*<NN.?>+<VBZ><RB.?>*<JJ.?><CC>*<PRP$><NN.?>+<VBZ><JJ.?><TO><VB><CC>*<VBG><PRP><MD><VB>}

示例:     如果现在不容易,或者它的大小难以量化,但是它的下降会满足

不可能检测到它并仅将其显示为S.虽然我认为模式完全相同。这可能是因为我正在寻找的条款有时在开头,有时在中间,有时候在句末?这可以因为我使用PunktSentenceTokenizer吗? 任何帮助将不胜感激

0 个答案:

没有答案