Bash:从格式为表

时间:2017-02-07 15:29:16

标签: bash treetagger

我正在使用TreeTagger(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)从文本中提取名词。我的问题是输出格式如下:

word    pos     lemma

The     DT      the 
TreeTagger      NP      TreeTagger 
is      VBZ     be 
easy    JJ      easy 
to      TO      to 
use     VB      use 

显然没有选择只获取名词(" NP"和#34; NN")。使用bash,我怎样才能让第一列中的单元格具有" NP"或者" NN"在第二栏?

1 个答案:

答案 0 :(得分:2)

您可以使用awk:

awk '$2 ~ /^N[PN]$/{print $1}' file

TreeTagger

正则表达式/^N[PN]$/将匹配NPNN

正如@Cyrus在下面正确评论的那样,您可以在正则表达式中使用交替:

awk '$2 ~ /^(NP|NN)$/ {print $1}' file