我有一个大文件,线条看起来像这样 文本数字等[人 - (一些数字)]很多这个人 - 有些人在几行中重复,我想只计算独特的芒词。我不能使用唯一文件,因为Man字之前的文字在每一行总是不同的。 我怎样才能算出文件中唯一的Man-somenumbers单词?
答案 0 :(得分:6)
如果我理解你想要做的正确,那么
grep -oE 'Man-[0-9]+' filename | sort | uniq -c
应该做的伎俩。它的工作原理如下:首先
grep -oE 'Man-[0-9]+' filename
隔离文件中与Man-[0-9]+
正则表达式匹配的所有单词。然后通过sort
传送该列表以获取uniq
所需的排序列表,然后通过uniq -c
传送该排序列表,以计算每个唯一Man-
字出现的频率