我有一个文本语料库,已按频率对其进行排序:
tr ' ' '\n' < corpus.txt | sort | uniq -c | sort -nr
现在我想要计算所有以相同数字开头的行。
例如:
100 the
50 in
50 and
10 cat
10 dog
应该返回:
100 1
50 2
10 2
有办法吗?
谢谢!
答案 0 :(得分:1)
轻松--css-inline
:
svnnotify
答案 1 :(得分:0)
只需调整已写入的命令: -
cut -d' ' -f1 corpus.txt| sort -rn | uniq -c
必需的输出是: -
1 100
2 50
2 10