我正在编写一个程序,帮助我找出网站是我的竞争对手链接。
为了做到这一点,我正在编写一个解析HTML文件的程序,并将生成2个列表:内部链接和外部链接。
我将使用内部链接进一步抓取网站,外部链接实际上就是我要找的。 p>
如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接。
提前致谢, Eytan Levit。
编辑:回答问题 - 不 - 我不受正则表达式约束,我可以使用任何其他想法。
答案 0 :(得分:8)
不要使用正则表达式。
使用专门用于解析HTML的HTML Agility Pack之类的内容。 (在他们的CodePlex主页上甚至有一个例子,它可以找到页面中的所有链接。)
答案 1 :(得分:0)
我使用Regex进行Html解析它确实很快但现在有更好的选项可以降低开发成本。
尝试Linq To Html这很好,Beth有很好的帖子可以找到here