Question

我有一个文本语料库，已按频率对其进行排序：

tr ' ' '\n' < corpus.txt | sort | uniq -c | sort -nr

现在我想要计算所有以相同数字开头的行。

例如：

100 the
50 in
50 and
10 cat
10 dog

应该返回：

100 1
50 2
10 2

有办法吗？

谢谢！

Answer 1

轻松--css-inline：

svnnotify

Answer 2

只需调整已写入的命令： -

cut -d' ' -f1 corpus.txt| sort -rn | uniq -c

必需的输出是： -

1 100
2 50
2 10