替换为正则表达式,用于解析链接的HTML页面

时间:2013-08-06 12:56:18

标签: c# .net regex

所以我正在尝试构建一个Web爬虫。我已经开始传递请求并获取页面的所有HTML作为响应。

接下来我想到使用正则表达式从HTML页面中提取链接。然而,我越努力学习它们,它们看起来就越棘手。

是否有正则表达式的替代方案(这似乎是一个讨论问题,但我没有在网上搜索过,也没有找到满意的答案)。

2 个答案:

答案 0 :(得分:2)

HtmlAgilityPack是用于在.NET中解析HTML的最着名的库。

答案 1 :(得分:1)

正则表达式不能用于HTML解析(参见http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html),使用正确的HTML解析器,如HtmlAgilityPack:

http://www.nuget.org/packages/HtmlAgilityPack