伙计们!
我有一个讨厌的页面要解析,但无法弄清楚如何使用Simple HTML DOM从中提取正确的数据块,因为它没有CSS子选择器支持。
HTML:
<ul class="ul-block">
<li>xxx</li>
<li>xxx</li>
<li>
<ul>
<li>xxx2</li>
</ul>
</ul>
如何提取(直接)父li
的子ul.ul-block
元素?
$node->find('ul[class=ul-block] > li');
无效,$node->find('ul[class=ul-block] li');
ofc也会找到嵌套的descandant li
元素:(
答案 0 :(得分:6)
我遇到了同样的问题,并使用了children方法来抓取第一级项目。
<ul class="my-list">
<li>
<a href="#">Some Text</a>
<ul>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
</ul>
</li>
<li>
<a href="#">Some Text</a>
<ul>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
<li><a href="#">Some Inner Text</a></li>
</ul>
</li>
</ul>
这里是Simple HTML Dom代码,只获得第一级li项:
$html = file_get_html( $url );
$first_level_items = $html->find( '.my-list', 0)->children();
foreach ( $first_level_items as $item ) {
... do stuff ...
}
答案 1 :(得分:2)
php DOM的简单示例:
$dom = new DomDocument;
$dom->loadHtml('
<ul class="ul-block">
<li>a</li>
<li>b</li>
<li>
<ul>
<li>c</li>
</ul>
</li>
</ul>
');
$xpath = new DomXpath($dom);
foreach ($xpath->query('//ul[@class="ul-block"]/li') as $liNode) {
echo $liNode->nodeValue, '<br />';
}