我需要从HTML文件中提取所有标记,这样我最终会得到一个包含每个属性的key = value的数组,或者至少是构成标记的原始文本。
我与正则表达式不太相配,更不用说PHP了,所以我非常感谢你们的帮助。
PD:某些标签可能会跨越多条线,并在后续线条上用标签和空格缩进。
感谢。
答案 0 :(得分:1)
您可以使用DOM functions将XML / XHTML文档解析为DOM树。从那里开始遍历你想要的节点并不难,提取你正在寻找的数据。
有些人更喜欢可能同样适合您的SimpleXML functions。我个人对SimpleXML存在问题,并且更喜欢更详细但功能更强大的DOM函数。
答案 1 :(得分:1)
是的,很容易。使用PHP的DOM函数并尝试使用XPath查找节点。 那应该是无痛的方式。
答案 2 :(得分:0)
另一个选项是simplehtmldom库。