所以我正在尝试构建一个Web爬虫。我已经开始传递请求并获取页面的所有HTML作为响应。
接下来我想到使用正则表达式从HTML页面中提取链接。然而,我越努力学习它们,它们看起来就越棘手。
是否有正则表达式的替代方案(这似乎是一个讨论问题,但我没有在网上搜索过,也没有找到满意的答案)。
答案 0 :(得分:2)
HtmlAgilityPack是用于在.NET中解析HTML的最着名的库。
答案 1 :(得分:1)
正则表达式不能用于HTML解析(参见http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html),使用正确的HTML解析器,如HtmlAgilityPack: