删除包含重复字符串(在这些行之间)的行,并在notepad ++中仅保留一个

时间:2018-07-19 19:24:01

标签: duplicates notepad++

Hitwriter_sample我在记事本++中有一个以制表符分隔的BLASTn表报表。它在行中包含重复的记录。我想删除包含这些重复的记录(其中之一除外)的整个行。这将使查看此表变得更加容易。我怎样才能做到这一点? TextFX blugin仅对它们排序,我会错过其中的内容吗?显示的正则表达式将删除所有文件内容。

1 个答案:

答案 0 :(得分:1)

TextFX是随32位版本的notepad ++一起提供的插件。该插件可以删除重复项。

否则,您可以在Replace(Control + H)上使用此正则表达式来删除重复项。请记住勾选. matches new line。一无所有

^([^\r\n]*)\r?\n(?=.*^\1(?:\r?\n|\z))

请参阅:https://regex101.com/r/Imq3OZ/1/

更新

我还添加了一个选项,用于根据特定列的一部分(在您的情况下为第三列)过滤行。

尝试以下操作:^[^\t]*+\t[^\t]*+\t.{3}\|(NODE[^\t]*+)\t[^\n]*+\r?\n(?=[\s\S]*^[^\t]*\t[^\t]*\t.{3}\|\1\t)

演示:https://regex101.com/r/xDLaS8/3/