Question

我正在使用正则表达式从组织中另一个组控制的页面中提取数据。基本结构遵循相同的模式：

<td><strong>Text I'm looking for</strong>...<a href="Link I'm also looking for"></a></td>

我能够使用

成功获取所需的数据

<td><strong>(?<title>.*?)</strong>(.*?)<a href="(?<link>.*?)">(.*?)</a></td>

但是我偶尔遇到一个看起来像

的小组

<td><strong>Text I'm </strong><strong>looking for</strong>...<a href="Link I'm also looking for"></a></td>

是否有正则表达式来处理这个问题？它最好自动组合两个块，但如果需要，我可以手动组合它们。

Answer 1

使用正则表达式来解析HTML很困难而且不安全。有一个.NET库可以帮助您：Html Agility Pack （http://htmlagilitypack.codeplex.com/） （它支持XPATH和XSLT）

Answer 2

也许您可以对第一个“我正在寻找的文本”进行后期处理，以使用空字符串替换字符串"</strong><strong>"。

System.String类型有一个可以很好地执行的Replace方法。