应用错误收集

是否有一个类可以用来从凌乱的HTML中提取元素

时间：2011-01-22 13:46:18

标签： c# html parsing dom

我需要从一些非常混乱的HTML中获取文本。假设我需要页面第一个列表中的第3个列表项。 li上可能有也可能没有结束标签，它们可能是混合情况，有类等等。

我想知道，在一个控制台应用程序中，是否可以使用一个类（DOMDocument ???）将HTML加载到DOM中，这将至少对它进行清理，然后将其解析出来。

这似乎已经应该解决了，但除了这个复古的正则表达式解决方案http://www.vsj.co.uk/articles/display.asp?id=389

之外，我没有找到任何相关的东西。

如果这是一个好的方法和正确的调查课程的任何想法将不胜感激。

1 个答案:

答案 0 :(得分：4)

Html Agility Pack可用于以DOM方式处理'messy'Html。