我正在尝试从中提取特殊的POS标签块,以及来自的许多块 不同的模式运作良好,可以使用它们找到类似的句子。但是当我看到标签中确定的标签的确切顺序作为输出作为块输出时,问题就出现了,但机器找不到具有我定义的名称的标签。例如:
{<VB><RB.?><VB><NN.?>+<IN>*<JJ.?>*<NN.?>*}
这很容易找到以下句子:
Do not take money from internal relations
但是当我有另一种模式时:
{<IN><DT>*<NN.?>+<VBZ><RB.?>*<JJ.?><CC>*<PRP$><NN.?>+<VBZ><JJ.?><TO><VB><CC>*<VBG><PRP><MD><VB>}
示例: 如果现在不容易,或者它的大小难以量化,但是它的下降会满足
不可能检测到它并仅将其显示为S.虽然我认为模式完全相同。这可能是因为我正在寻找的条款有时在开头,有时在中间,有时候在句末?这可以因为我使用PunktSentenceTokenizer吗? 任何帮助将不胜感激