在一个文本文件中,我有150个单词。我有另一个文本文件,大约有100,000行。
如何检查属于第一个文件的每个单词是否在第二个文件中?
我考虑使用grep
,但我无法找到如何使用它来阅读原始文本中的每个单词。
有没有办法使用awk
执行此操作?还是另一种解决方案?
我试过这个shell脚本,但它几乎匹配每一行:
#!/usr/bin/env sh
cat words.txt | while read line; do
if grep -F "$FILENAME" text.txt
then
echo "Se encontró $line"
fi
done
我发现的另一种方式是:
fgrep -w -o -f "words.txt" "text.txt"
答案 0 :(得分:6)
您可以使用grep -f
:
grep -Ff "first-file" "second-file"
或者匹配完整的单词:
grep -w -Ff "first-file" "second-file"
更新:根据评论:
awk 'FNR==NR{a[$1]; next} ($1 in a){delete a[$1]; print $1}' file1 file2
答案 1 :(得分:2)
像这样使用grep:
grep -f firstfile secondfile
第二个选项
感谢Ed Morton指出文件“reserved”中的单词被视为模式。如果这是一个问题 - 它可能是也可能不是 - OP可以使用不使用模式的这样的东西:
档案“保留”
cat
dog
fox
和文件“text”
The cat jumped over the lazy
fox but didn't land on the
moon at all.
However it did land on the dog!!!
Awk脚本是这样的:
awk 'BEGIN{i=0}FNR==NR{res[i++]=$1;next}{for(j=0;j<i;j++)if(index($0,res[j]))print $0}' reserved text
带输出:
The cat jumped over the lazy
fox but didn't land on the
However it did land on the dog!!!
第三选择
或者,它可以很简单地完成,但在bash中更慢:
while read r; do grep $r secondfile; done < firstfile