如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接

时间:2009-07-01 15:32:57

标签: c# regex web-crawler

我正在编写一个程序,帮助我找出网站是我的竞争对手链接。

为了做到这一点,我正在编写一个解析HTML文件的程序,并将生成2个列表:内部链接和外部链接。

我将使用内部链接进一步抓取网站,外部链接实际上就是我要找的。

如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接。

提前致谢, Eytan Levit。

编辑:回答问题 - 不 - 我不受正则表达式约束,我可以使用任何其他想法。

2 个答案:

答案 0 :(得分:8)

不要使用正则表达式。

使用专门用于解析HTML的HTML Agility Pack之类的内容。 (在他们的CodePlex主页上甚至有一个例子,它可以找到页面中的所有链接。)

答案 1 :(得分:0)

我使用Regex进行Html解析它确实很快但现在有更好的选项可以降低开发成本。

尝试Linq To Html这很好,Beth有很好的帖子可以找到here