Question

我有两个清单。我需要确定第一个列表中哪个单词最常出现在第二个列表中。第一个，list1.txt包含一个单词列表，按字母顺序排序，没有重复。我使用了一些脚本来确保每个单词出现在一个唯一的行上，例如：

canyon
fish
forest
mountain
river

第二个文件list2.txt是UTF-8，还包含许多项目。我还使用了一些脚本来确保每个单词出现在一个唯一的行上，但有些项目不是单词，有些可能会出现很多次，例如：

fish
canyon
ocean
ocean
ocean
ocean
1423
fish
109
fish
109
109
ocean

这是我到目前为止所拥有的。首先，它搜索每个单词并创建一个包含匹配项的CSV文件：

#!/bin/bash
while read -r line
do
    count=$(grep -c ^$line list2.txt)
    echo $line”,”$count >> found.csv
done < ./list1.txt

之后，found.csv按第二列降序排序。输出是出现在第一行的单词。我不认为这是一个很好的脚本，因为它不是那么有效，并且可能没有最频繁的匹配项，例如：

如果两个或更多单词之间存在平局，例如“鱼”，“峡谷”和“森林”各出现5次，而没有其他出现的频率，输出将是按字母顺序排列的这3个单词，用逗号分隔，例如：“峡谷，鱼，森林”。 / LI>
如果list1.txt中没有list2.txt中的任何字词，则输出只是文件list1.txt中的第一个字，例如{{1}}。 “峡谷”。

如何创建一个更高效的脚本，找到第一个列表中哪个词最常出现在第二个列表中？

Answer 1

您可以使用以下管道：

grep -Ff list1.txt list2.txt | sort | uniq -c | sort -n | tail -n1

F告诉grep搜索文字，f告诉它使用list1.txt作为要搜索的字词列表。其余的对匹配进行排序，计算重复次数，并根据出现的次数对它们进行排序。最后一部分选择最后一行，即最常见的一行（加上出现次数）。

Answer 2

> awk 'FNR==NR{a[$1]=0;next}($1 in a){a[$1]++}END{for(i in a)print a[i],i}' file1 file2 | sort -rn|head -1

Answer 3

假设'list1.txt'已排序，我会使用unix join ：

sort list2.txt | join -1 1 -2 1 list1.txt - | sort |\
   uniq -c | sort -n | tail -n1