我正在使用正则表达式从组织中另一个组控制的页面中提取数据。基本结构遵循相同的模式:
<td><strong>Text I'm looking for</strong>...<a href="Link I'm also looking for"></a></td>
我能够使用
成功获取所需的数据<td><strong>(?<title>.*?)</strong>(.*?)<a href="(?<link>.*?)">(.*?)</a></td>
但是我偶尔遇到一个看起来像
的小组<td><strong>Text I'm </strong><strong>looking for</strong>...<a href="Link I'm also looking for"></a></td>
是否有正则表达式来处理这个问题?它最好自动组合两个块,但如果需要,我可以手动组合它们。
答案 0 :(得分:1)
使用正则表达式来解析HTML很困难而且不安全。有一个.NET库可以帮助您:Html Agility Pack
(http://htmlagilitypack.codeplex.com/)
(它支持XPATH
和XSLT
)
答案 1 :(得分:-1)
也许您可以对第一个“我正在寻找的文本”进行后期处理,以使用空字符串替换字符串"</strong><strong>"
。
System.String类型有一个可以很好地执行的Replace方法。