正则表达式使用记事本++从庞大的文档中删除相同部分

时间:2018-08-07 18:11:16

标签: regex notepad++

我有300万行这种格式的文本

> Dyskeratosis congenita
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 1" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 1">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 1>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 2" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 2">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 2>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 3" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 3">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 3>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4">  DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 6" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 6">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 6>

我要删除每个部分以“ title =”开头的> 我无法修复在记事本++中使用的正则表达式

2 个答案:

答案 0 :(得分:1)

您可以使用以下RegEx查找匹配项:

".+>

我不知道notepad ++,但是现在要做的就是用一个空字符串替换

编辑: 如果要匹配第一个“>”,请使用此:

"".+\">

答案 1 :(得分:1)

这将匹配所有以“ title =”开头(包括“ title =“)和结束双引号之后的第一个>

  

title = \“ [^ \”] + \“>