Question

我有300万行这种格式的文本

> Dyskeratosis congenita
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 1" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 1">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 1>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 2" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 2">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 2>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 3" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 3">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 3>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4">  DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 4>
>        DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 6" title="DYSKERATOSIS CONGENITA AUTOSOMAL DOMINANT 6">  DYSKERATOSIS CONGENITA AUTOSOMAL  DOMINANT 6>

我要删除每个部分以“ title =”开头的> 我无法修复在记事本++中使用的正则表达式

Answer 1

您可以使用以下RegEx查找匹配项：

".+>

我不知道notepad ++，但是现在要做的就是用一个空字符串替换

。

编辑：如果要匹配第一个“>”，请使用此：

"".+\">

Answer 2

这将匹配所有以“ title =”开头（包括“ title =“）和结束双引号之后的第一个>

title = \“ [^ \”] + \“>

正则表达式使用记事本++从庞大的文档中删除相同部分

2 个答案: