如何解析HTML标签?

时间:2012-06-27 08:58:56

标签: c# asp.net .net wpf

我正在尝试使用HTML敏捷包解析HTML页面。我的问题是,我必须使用HAP解析并显示每个页面中的页面查看次数。假设我有3页。 每个页面包含随机位置的div或span或表中的页面视图数。坦率地说,它没有任何固定的位置,很难找到包含页面视图的标签。

例如,

In Page 1
<!--Some content-->
<div>12 Page views</div>
<!--Some content-->

In Page 2
<!--Some content-->
<span>11 Page views</span>
<!--Some content-->

In Page 3
<!--Some content-->
<table><tr><td><!--Some content--></td></tr>
<tr><td>3 Page views only</td></tr></table>
<!--Some content-->

我需要从上面的标签中找到计数。格式可以是任何类似的,

<no> Page views
<no> Page views Only
<no> Page view till now
etc...

有人可以提出解析内容的方法吗?

1 个答案:

答案 0 :(得分:0)

我找到了问题的解决方案。它不是一个全球解决方案,但它现在为我工作。希望它可以帮助别人。

int result = -1;
            var matches = Regex.Matches(
                HTMLText,
                @"(?:\S+\s)?\S*page views\S*(?:\s\S+)?",
                RegexOptions.IgnoreCase
            );

            foreach (Match m in matches)
            {
                string val = m.Value;
                int res=-1;
                if (Int32.TryParse(val, out res))
                {
                    result = res;
                    break;
                }
            }