标签: php html string url
我正在尝试实现一种解析HTML资源的功能,以查找应该加载它的所有外部资源(绝对和相对)。我的意思是潜在的图片(<img>标签),样式(<link rel>),脚本(<script>)等等。但是结果应该仅限于实际加载的资源,例如我想跳过<a>标记,因为它需要用户操作(点击链接)。
<img>
<link rel>
<script>
<a>
为此,我考虑使用DOMDocument类,但在解析文档时会抛出很多潜在的错误(不幸的是,它对DTD非常严格)。你有什么想法我怎么能以明智的方式管理它?
DOMDocument
DTD