我正在寻找在文档语料库中查找词性模式的工具。我正在使用Stanford NLP工具对我的文档进行POS标记。现在我想查询这些标记文档并找到一些特定的POS模式,例如
NP JJ (例如:电影很棒)
或 JJ NP (例如:优质鹅肝)
是否有一种工具能够以简单有效的方式为我做到这一点,还是我需要自己编写?
答案 0 :(得分:2)
从Stanford CoreNLP,您还可以使用TokensRegex匹配令牌列表中的模式:http://nlp.stanford.edu/software/tokensregex.shtml
例如,您的两种模式类似于:
[{tag:NN}] [{word:is}] [{tag:JJ}]
[{tag:JJ}] [{tag:NN}]
(旁注,但NP不是POS标签。可能,真的,你想要的是[{tag:/ N。* /}]和[{lemma:be}]来捕捉更广泛的案例)
答案 1 :(得分:1)
要考虑的一个工具是Corpus Workbench:http://cwb.sourceforge.net/