我需要从一些非常混乱的HTML中获取文本。假设我需要页面第一个列表中的第3个列表项。 li上可能有也可能没有结束标签,它们可能是混合情况,有类等等。
我想知道,在一个控制台应用程序中,是否可以使用一个类(DOMDocument ???)将HTML加载到DOM中,这将至少对它进行清理,然后将其解析出来。
这似乎已经应该解决了,但除了这个复古的正则表达式解决方案http://www.vsj.co.uk/articles/display.asp?id=389
之外,我没有找到任何相关的东西。如果这是一个好的方法和正确的调查课程的任何想法将不胜感激。