我正在使用c#win form应用程序进行网站抓取,我正在尝试使用breadcrumb html获取每个标题。用我的HTML代码
<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>
以上html是字符串格式。我想检索类别,即Cat1到Cat3,以在excel文件中写入类别。如何使用Regex从字符串中获取这3个类别。
答案 0 :(得分:2)
使用以下正则表达式匹配您的字符串。
title">(.+)<
请注意:
它将 Home 与您的第一个捕获组匹配。
在C#代码中,使用匹配对象的属性.Groups(1)
返回第一个捕获组。 Groups(0)
会返回整场比赛。
确保跳过第一场比赛以获取 Cat1 , Cat2 和 Cat3 。
毋庸置疑,您的正则表达式对象必须处理多行。
答案 1 :(得分:1)
怎么样:
title">(.*?)<