应用错误收集

替换为正则表达式，用于解析链接的HTML页面

时间：2013-08-06 12:56:18

标签： c# .net regex

所以我正在尝试构建一个Web爬虫。我已经开始传递请求并获取页面的所有HTML作为响应。

接下来我想到使用正则表达式从HTML页面中提取链接。然而，我越努力学习它们，它们看起来就越棘手。

是否有正则表达式的替代方案（这似乎是一个讨论问题，但我没有在网上搜索过，也没有找到满意的答案）。

2 个答案:

答案 0 :(得分：2)

HtmlAgilityPack是用于在.NET中解析HTML的最着名的库。

答案 1 :(得分：1)

正则表达式不能用于HTML解析（参见http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html），使用正确的HTML解析器，如HtmlAgilityPack：

http://www.nuget.org/packages/HtmlAgilityPack