Question

我有一个大文件，线条看起来像这样文本数字等[人 - （一些数字）]很多这个人 - 有些人在几行中重复，我想只计算独特的芒词。我不能使用唯一文件，因为Man字之前的文字在每一行总是不同的。我怎样才能算出文件中唯一的Man-somenumbers单词？

Answer 1

如果我理解你想要做的正确，那么

grep -oE 'Man-[0-9]+' filename | sort | uniq -c

应该做的伎俩。它的工作原理如下：首先

grep -oE 'Man-[0-9]+' filename

隔离文件中与Man-[0-9]+正则表达式匹配的所有单词。然后通过sort传送该列表以获取uniq所需的排序列表，然后通过uniq -c传送该排序列表，以计算每个唯一Man-字出现的频率