如何在simple_html_dom中对一系列类似的不包含块进行排序

时间:2016-01-29 21:06:57

标签: parsing dom block simple-html-dom

我需要解析一个大文档,其中的元素排列为一系列标题后跟一个div,如下所示:

<h2> Section Title </h2>
<div> Section Content</div>
<h2> Section Title 2</h2>
<div> Section Content2</div>
<h4> Section Title 3</h4>
<div> Section Content 3</div>

所以基本上在dom中,我需要将<h>与下一个<div>组合在一起。 dom似乎不是子/兄弟/父函数的元素,我需要允许输入文件中的不一致,所以不要做像查找所有h元素的事情,找到所有的div,并在循环中遍历每个列表,假设元素是正确的匹配。有没有办法让dom设置好所以我可以使用子函数或其他一些干净的方法来执行它来完成它?

1 个答案:

答案 0 :(得分:0)

我想到的最简单的方法是访问元素&#39; root&#39;作为元素到达dom的顶部。

从那里弄清楚如何遍历子元素序列仍然很棘手,但在这种情况下,如果内容是可预测的,搜索div和prev_sibling()似乎有效,但我的内容可能< / p>