两个大单词列表的交集

时间:2011-01-23 05:55:23

标签: dictionary grep intersection

我有两个单词列表(180k和260k),我想生成第三个文件,它是出现在BOTH列表中的一组单词。

这样做的最佳(最有效)方法是什么?我已经阅读了论坛,讨论使用 grep ,但我认为单词列表对于这种方法来说太大了。

5 个答案:

答案 0 :(得分:4)

如果两个文件已排序(或您可以对它们进行排序),则可以使用comm -1 -2 file1 file2打印出交叉点。

答案 1 :(得分:3)

你是对的,grep会是一个坏主意。输入“ man join ”并按照说明操作。

如果您的文件只是单个列中的单词列表,或者至少,如果重要单词是每行的第一个单词,那么您需要做的就是:

$ sort -b -o f1 file1
$ sort -b -o f2 file2
$ join f1 f2

否则,您可能需要为join(1)命令提供一些附加说明:

JOIN(1)                   BSD General Commands Manual                  JOIN(1)

NAME
     join -- relational database operator

SYNOPSIS
     join [-a file_number | -v file_number] [-e string] [-o list] [-t char] [-1 field] [-2 field] file1 file2

DESCRIPTION
     The join utility performs an ``equality join'' on the specified files and writes the result to the standard output.  The ``join field'' is the field in each file by which the files are compared.  The
     first field in each line is used by default.  There is one line in the output for each pair of lines in file1 and file2 which have identical join fields.  Each output line consists of the join field,
     the remaining fields from file1 and then the remaining fields from file2.
     . . .
     . . .

答案 2 :(得分:2)

每行假定一个单词,我会使用grep

grep -xFf seta setb  
  • -x匹配整行(无部分匹配)
  • -F从字面上解释给定的模式(没有正则表达式)
  • -f seta指定要搜索的模式
  • setb是搜索seta
  • 内容的文件

comm会做同样的事情,但需要对你的套装进行预先排序:

comm -12 <(sort seta) <(sort setb)

答案 3 :(得分:1)

grep -P '[ A-Za-z0-9]*' file1 | xargs -0 -I {} grep {} file2 > file3

我相信这会查找file1中的任何内容,然后检查file1中的内容是否在file2中,并将匹配的内容放入file3。

答案 4 :(得分:0)

回到过去,我设法找到了一个类似的Perl脚本:

http://www.perlmonks.org/?node_id=160735