regex.Match运行缓慢

时间:2012-08-17 19:41:05

标签: c# regex

我有一个程序从很多大的html页面中提取一些信息。我发现最后一行(myRegex.Match(detailPage))占用了大部分执行时间。正则表达式模式是否已优化?

const string strRegex = @"prepend-top.*?<h1[^>]*?>(?<name>.+?)\s*<a.*?
    Create\ Date.*?<label>(?<create>.*?)</label>.*?
    <a.*?id\s*=\s*""period_report"".*?href\s*=\s*""(?<url>.*?)""";
const RegexOptions myRegexOptions =
            RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.Compiled |
            RegexOptions.IgnorePatternWhitespace;
var myRegex = new Regex(strRegex, myRegexOptions);
var m = myRegex.Match(detailPage);

HTML代码看起来像(html文件大小约为30K,但是,大多数html是javascript代码):

<div class="span-24 prepend-top">
<h1>XXX XXX XXXX 
    <a href="https://....">Back to Search Results</a></h1>
</div>

<div class="span-18">
<div class="top-content">

<script type="text/javascript">
 .....
</script>

    <div class="detailHeaderContainer">
        <div class="leftBlock">

            <div class="left staticlabel leftStaticlabelWidth inlineColumn">
                <label>
                    Product Type:
                </label>
            </div>
            <div class="left leftDynamiclabelWidth dynamiclabel">
                <label>Type 2</label>
            </div>
            <div class="clear"></div>

            <div class="left staticlabel leftStaticlabelWidth inlineColumn">
                <label>
                    Create Date:
                </label>
            </div>
            <div class="left leftDynamiclabelWidth dynamiclabel">
                <label></label>
            </div>

2 个答案:

答案 0 :(得分:0)

我建议您快速查看regex best practices guide on MSDNThis blog entry on the BCL team's blog,了解正则表达式的行为,并提供有关正则表达式为何缓慢的指导

答案 1 :(得分:0)

创建静态RegEx类可以节省大量时间。