网站抓取以获得面包屑类别

时间:2015-02-16 12:42:34

标签: c# html regex web-scraping

我正在使用c#win form应用程序进行网站抓取,我正在尝试使用breadcrumb html获取每个标题。用我的HTML代码

<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>

以上html是字符串格式。我想检索类别,即Cat1到Cat3,以在excel文件中写入类别。如何使用Regex从字符串中获取这3个类别。

2 个答案:

答案 0 :(得分:2)

使用以下正则表达式匹配您的字符串。

title">(.+)<

请注意:

它将 Home 与您的第一个捕获组匹配。

在C#代码中,使用匹配对象的属性.Groups(1)返回第一个捕获组。 Groups(0)会返回整场比赛。

确保跳过第一场比赛以获取 Cat1 Cat2 Cat3

毋庸置疑,您的正则表达式对象必须处理多行。

演示here

答案 1 :(得分:1)

怎么样:

title">(.*?)<