帮助正则表达式

时间:2011-06-09 15:50:56

标签: asp.net html regex replace

我有超过2000个aspx文档,它们都具有我需要删除的相同标题:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML lang="en">
<HEAD>

<TITLE>External Reference Investopedia</TITLE>
<META NAME="author" CONTENT="DERCHEC">
</HEAD>
<BODY>
<A NAME="topofpagebibliographyitem2aspx"></A>

每个文件中的<TITLE><A>标记都会发生变化。

我需要一些帮助来创建一个正则表达式,它将为我选择所有上述文本。我目前正在使用TextCrawler批量处理这些文档。如果有更好的工具和方法。请告诉我。

此致

CD

3 个答案:

答案 0 :(得分:1)

使用visual studio查找和替换文件。在您的查找选项中,选择您要使用正则表达式(它是一个复选框)

查找

{\<Title>{.*}\</title\>}

替换为空 - IE留空。 这应该让你开始:)

选项2 - 下载ultraedit并在文本块上的文件中执行查找和替换 - 完成:)

答案 1 :(得分:0)

简单!正则表达式将与您需要删除的文本完全相同。所以,如果你想匹配:

<HTML lang="en">

你的正则表达式将是:

<HTML lang="en">

你遇到问题的唯一一次是你有一个具有保留意义的角色,在这个例子中你只需要用\前缀。

因此,如果您需要匹配问号(?),正则表达式将是\?

答案 2 :(得分:0)

如果要删除的位始终以</A>标记结尾。您可以使用任何语言的普通字符串拆分功能。