我正在使用DOMDocument迭代HTML以获取<p>
标记内的内容。但与此同时,我不想从href
标记中的div
,span
和<p>
信息获取任何内容。我应该如何从以下代码着手:
$doc = new DOMDocument();
$doc->loadHTML($data);
$pas = $domDoc->getElementsByTagName("p");
foreach ($pas as $pa)
$pa->textContent
我可以为getElementsByTagName()
的div,span,href进一步执行DOMDocument $pas
吗?或者我需要做一个正则表达式吗?
答案 0 :(得分:1)
你可以这样使用
$doc = new DOMDocument();
$doc->loadHTML($data);
$rootElement = $document->documentElement;//selecting document root
$pTags = $rootElement->getElementsByTagName("p");//selecting all p tags from DOM
$pas = $pTags->item(0);// selecting first p tag
foreach ($pas as $pa) {
if($pa->nodeName == 'div' || $pa->nodeName == 'span' || $pa->nodeName == 'a')
continue;
// do everything else here
}