Bash - 每行的单词/术语频率(即文档)

时间:2016-10-10 19:49:14

标签: regex bash text-processing

我有一个rev.txt这样的文件:

header1,header2
1, some text here
2, some more text here
3, text and more text here

我还有一个词汇表文档,其中包含来自rev.txt的所有独特单词,如此(但已排序):

a
word
list
text
here
some
more
and

我想为rev.txt中的每一行生成一个术语频率表,其中列出rev.txt每行中每个词汇单词的出现次数,如下所示:

0 0 0 1 1 1 0 0     
0 0 0 1 1 1 1 0 
0 0 0 2 1 0 1 1

它们也可以用逗号分隔。

这类似于a question here。但是,我不想搜索整个文档,而是希望使用我已有的完整词汇逐行完成。

回复:Jean-FrançoisFabre

实际上,我在MATLAB中执行这些操作。但是,bash(我相信)对于这种预处理会更快,因为我可以直接访问文件。

2 个答案:

答案 0 :(得分:1)

通常,我会使用python,但是限制自己使用 bash ,这个 hacky one-liner 解决方案适用于给定的测试情况下。

perl -pe 's|^.*?,[ ]?(.*)|\1|' rev.txt | sed '1d' | awk -F' ' 'FILENAME=="wordlist.txt" {wc[$1]=0; wl[wllen++]=$1; next}; {for(i=1; i<=NF; i++){wc[$i]++}; for(i=0; i<wllen; i++){print wc[wl[i]]" "; wc[wl[i]]=0; if(i+1==wllen){print "\n"} }}' ORS="" wordlist.txt -

解释/我的想法......

在第一部分中,perl -pe 's|^.*?,[ ]?(.*)|\1|' rev.txt用于从“rev.txt”中删除第一个逗号(+删除前导空格)之后的所有内容。

在下一部分中,sed '1d'用于删除第一个,即标题行。

在下一部分中,我们指定awk -F' ' ... ORS="" wordlist.txt -使用空格作为字段分隔符,输出记录分隔符作为无空格(注意:我们将在打印时打印它们),并从wordlist.txt读取输入(即“具有来自rev.txt的所有独特单词的词汇表文档”)和标准输入。

在awk命令中,如果FILENAME等于“wordlist.txt”,则(1)初始化数组wc,其中键是词汇单词,计数为0,并且(2)初始化a列出wl,其中的单词顺序与wordlist.txt相同。

FILENAME=="wordlist.txt" {
  wc[$1]=0;
  wl[wllen++]=$1;
  next
};

初始化后,对于stdin行中的每个单词(即整齐的rev.txt),增加wc中单词的计数。

{ for (i=1; i<=NF; i++) {
    wc[$i]++
    }; 

在为一行添加单词计数后,对于单词列表wl中的每个单词,使用空格打印该单词的计数,并将wc中的计数重置为0如果单词是列表中的最后一个,那么在输出中添加一个空格。

  for (i=0; i<wllen; i++) {
    print wc[wl[i]]" ";
    wc[wl[i]]=0;

    if(i+1==wllen){
      print "\n"
      } 
    }
  }

总的来说,这应该产生指定的输出。

答案 1 :(得分:0)

这是awk中的一个。它读入词汇表文件voc.txt(在awk中自动生成它是一块蛋糕),复制每行文本的单词列表并计算单词频率:

$ cat program.awk
BEGIN {
    PROCINFO["sorted_in"]="@ind_str_asc"  # order for copying vocabulary array w
}
NR==FNR {                                 # store the voc.txt to w
    w[$1]=0
    next
}

FNR>1 {                                   # process text files to matrix
    for(i in w)                           # copy voc array
        a[i]=0
    for(i=2; i<=NF; i++)                  # count freqs
        a[$i]++
    for(i in a)                           # output matrix row
        printf "%s%s", a[i], OFS
    print ""
}

运行它:

$ awk -f program.awk voc.txt rev.txt
0 0 1 0 0 1 1 0
0 0 1 0 1 1 1 0
0 1 1 0 1 0 2 0