从两个文本文件(平行语料库)中随机抽样N行

时间:2018-02-28 19:51:23

标签: linux bash shell file command-line

我一次又一次地遇到了从两个文件(即来自平行语料库)中抽取特定行数(让我们说N)的问题;句子根据行号对齐)始终

对于从事(神经)机器翻译研究的人来说,这是一项常见的常见任务。

我想知道一种快速有效的方法,可以从并行语料库中抽取(即选择) N 行,可能来自命令行。

例如,如果我们想以一致的方式从两个文件中选择4行,我们可以对行号31217进行抽样, 23。这应该从这两个文件中提供这些行。此外,将此参数N作为任意参与会很好,以便我们可以根据需要更改它。此外,这些行应该采样而不重复。并且,需要采样的所需行数N将始终小于两个文件中的总行数,其中两个文件的总行数始终相等。

一旦我们对所需的行进行采样,还需要从两个未采样的文件中获取行(即获取随机采样中未选择的其余行)。

  

这样做的整个想法是以一致的方式对两个文件进行采样,以便保留它们的行对齐。 (即选择N行和N-T行,其中T是总行数。)

其中N是不需要重复的所需行数,而N-T是尚未采样的其余行。

我该怎么做呢?提前谢谢!

2 个答案:

答案 0 :(得分:2)

如果您不允许重复,最好使用随机播放算法。为此目的已经有一个工具shuf

例如,

$ shuf -n 10 file

将从文件中随机选择10行(按随机顺序)。您的请求有两个额外的约束,首先应该对选择进行排序,然后选择需要与另一个运行保持一致。对于第二个要求,您可以向shuf提供随机源以获得两次相同的序列。对于排序,我们自己...

$ shuf -n 10 --random-source=file <(cat -n file1) | sort -n | cut -f2- > sample1
$ shuf -n 10 --random-source=file <(cat -n file2) | sort -n | cut -f2- > sample2

将以正确的顺序为您提供相同的采样行。对于随机性,您可以使用任一文件或任何其他第三个文件(但两次运行应该相同)。

另一种方法是将两个文件粘贴在一起并进行一次洗牌并在之后拆分样本。

$ paste -d'|' file1 file2 | cat -n | shuf -n 10 | sort -n | cut -f2 > sample

$ cut -d'|' -f1 sample > sample1
$ cut -d'|' -f2 sample > sample2

获取保留行号所需的未选择行。使用第二种选择

$ paste -d'|' file1 file2 | cat -n | shuf -n 10 | sort -n > n_samples
$ cut -f2- n_samples > samples
$ awk 'NR==FNR{a[$1];next} !(FNR in a)' <(cut -f1 n_samples) samples > notselected

您可以像以前一样拆分样本和未选择的文件。

使用第一个替代方案,文件中未选择的行将被写入具有相同名称和扩展名的文件“.not”

$ cat -n file1 | shuf -n 10 --random-source=file | sort -n > n_sample1
$ cut -f2- n_sample1 > sample1
$ cat -n file2 | shuf -n 10 --random-source=file | sort -n | cut -f2- > sample2
$ awk 'NR==FNR    {a[$1];next} 
      !(FNR in a) {print > FILENAME".not"}' <(cut -f1 n_sample1) sample1 sample2 

答案 1 :(得分:1)

#!/bin/bash
samples=$1
file1="$2"
file2="$3"

maxlines=$(cat "$file1" | wc -l)
nums=($(shuf -e $(echo $(seq 1 $maxlines))))
lines=$(for i in $(seq 1 $samples); do echo ${nums[$i]}p" "; done | sort -n)
sed -n "$lines" "$file1"
sed -n "$lines" "$file2"

#rows1=($(sed -n "$lines" "$file1"))
#rows2=($(sed -n "$lines" "$file2"))
  • 参数$ 1,2,3:样本数,filename1和2.
  • 使用wc -l和cat的maxline,因为那时我们不需要删除文件名。 (没有无用的猫奖,在这里)。
  • seq x y生成从x到y的序列,此处为1到maxlines。没有一个错误的错误,因为wc,来源,从sed(稍后)开始计数。
  • shuf -e将这些数字洗牌,而不是期望它们行式
  • 样品数量,从前面拉亚麻布,
    • 但对它们进行排序,以便sed只需要遍历文件一次。
    • 后缀&#39; p&#39;用于sed。
  • sed -n,对于11行的小文件,sample = 4,如下所示:

    sed -n 3p  4P  5P  7p mul.sh

如果您不希望输出文件,但是按行,请在数组中收集它们:

rows1=($(sed -n "$lines" "$file1"))
rows2=($(sed -n "$lines" "$file2"))

这样,sed仍然只需遍历一次可能很大的文件。使用从0到$ sample-1的数组索引,您可以遍历两个行数组并进行比较 - 或者无论作业是什么。