删除仅出现一次的所有行

时间:2016-01-17 12:39:31

标签: windows nlp text-processing

我有一个巨大的文本文件。大多数线条经常出现两次或更多次。有些只出现一次。我如何识别它们并摆脱它们?

从以下列表中:

capi.dll

我想识别

arterias arcuadas
arterias arcuadas
arterias arcuatas
arterias arqueadas
arterias arqueadas

1 个答案:

答案 0 :(得分:0)

我用过(通过Windows上的Cygwin)

arterias arcuatas

保存带有计数行号的新文件,即我的结果如下所示:

uniq -c > newfile.txt

现在我可以使用正则表达式

2 arterias arcuadas
1 arterias arcuatas
2 arterias arqueadas

删除单行。