如何从文件linux中找到独特的单词

时间:2015-03-21 12:05:12

标签: linux bash ubuntu terminal

我有一个大文件,线条看起来像这样 文本数字等[人 - (一些数字)]很多这个人 - 有些人在几行中重复,我想只计算独特的芒词。我不能使用唯一文件,因为Man字之前的文字在每一行总是不同的。 我怎样才能算出文件中唯一的Man-somenumbers单词?

1 个答案:

答案 0 :(得分:6)

如果我理解你想要做的正确,那么

grep -oE 'Man-[0-9]+' filename | sort | uniq -c

应该做的伎俩。它的工作原理如下:首先

grep -oE 'Man-[0-9]+' filename

隔离文件中与Man-[0-9]+正则表达式匹配的所有单词。然后通过sort传送该列表以获取uniq所需的排序列表,然后通过uniq -c传送该排序列表,以计算每个唯一Man-字出现的频率