是否有一个类可以用来从凌乱的HTML中提取元素

时间:2011-01-22 13:46:18

标签: c# html parsing dom

我需要从一些非常混乱的HTML中获取文本。假设我需要页面第一个列表中的第3个列表项。 li上可能有也可能没有结束标签,它们可能是混合情况,有类等等。

我想知道,在一个控制台应用程序中,是否可以使用一个类(DOMDocument ???)将HTML加载到DOM中,这将至少对它进行清理,然后将其解析出来。

这似乎已经应该解决了,但除了这个复古的正则表达式解决方案http://www.vsj.co.uk/articles/display.asp?id=389

之外,我没有找到任何相关的东西。

如果这是一个好的方法和正确的调查课程的任何想法将不胜感激。

1 个答案:

答案 0 :(得分:4)

Html Agility Pack可用于以DOM方式处理'messy'Html。