HTML解析器

时间:2009-05-08 19:01:32

标签: c# html vb.net parsing

任何人都知道VB.NET或C#的HTML解析器?我知道.NET有很多XML支持,比如XMLReader和XMLWriter。是否有HTMLWriter或HTMLReader?

最终,我想要的是一个库,它将解析HTML文件并根据它找到的标记引发事件。有人知道有图书馆这样做吗?

2 个答案:

答案 0 :(得分:5)

HTML Agility Pack是你要解析HTML的方法(它甚至可以很好地处理标签汤)。从理论上讲,BCL中包含的XML解析器应该能够解析有效的XHTML,但HTML Agility Pack是一个通用的解决方案,可以处理普通的HTML,XHTML和凌乱的两种变体。

在找到标签时提升事件当然是你必须自己实现的,但使用HtmlReader类应该是相当简单的。

答案 1 :(得分:1)

我很久以前写过这个HtmlParser,我刚刚将它作为GitHub上的一个开源项目发布。它比典型的HTML解析工具更快,因为它不构建DOM。它完全符合您的要求,并提出了#34;事件"对于每个标签。

https://github.com/calbucci/CalbucciLib.HtmlParser

我刚把它添加到NuGet:

https://www.nuget.org/packages/CalbucciLib.HtmlParser/