删除不重要的单词

时间:2011-02-11 07:42:19

标签: shell

我有: 带有单词的文件:importantwords.txt(多行,空格分隔,包含单词) 例如:

ALMOST
APPARENTLY
COULD
DEPEND
.
.
.

我有文本文件:01news.txt,...,10news.txt(新闻为文本)。 例如:

于收购及分配之间的短暂时间内,本公司执行董事被视为于该等股份中拥有权益。本公司宣布周二就SIP进行以下交易。

现在,我想删除01news.txt,... 10news.txt所有不在的单词 importantwords.txt

我怎么能这样做?我用sed尝试过,但我是新手。你能帮忙吗?

1 个答案:

答案 0 :(得分:1)

for file in *news.txt
do
   awk 'FNR==NR{for(i=1;i<=NF;i++) impt[$i];next }
   { 
      for(j=1;j<=NF;j++) { 
        if ( toupper($j) in impt)  {
           printf "%s ", $j 
        }
      }
        print ""     
   } ' importantwords.txt $file > tmp && mv tmp $file

done