我正在使用TreeTagger(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)从文本中提取名词。我的问题是输出格式如下:
word pos lemma
The DT the
TreeTagger NP TreeTagger
is VBZ be
easy JJ easy
to TO to
use VB use
显然没有选择只获取名词(" NP"和#34; NN")。使用bash,我怎样才能让第一列中的单元格具有" NP"或者" NN"在第二栏?
答案 0 :(得分:2)
您可以使用awk:
awk '$2 ~ /^N[PN]$/{print $1}' file
TreeTagger
正则表达式/^N[PN]$/
将匹配NP
或NN
正如@Cyrus在下面正确评论的那样,您可以在正则表达式中使用交替:
awk '$2 ~ /^(NP|NN)$/ {print $1}' file