完全刮掉完整的HTML标记

时间:2017-03-04 11:51:48

标签: php html web-scraping custom-selectors

假设我有一个HTML页面

<p> Some text here </p>
<p> Some other text here </p>
<h1> Title 1 </h1>
<p> Another text here </p>
<p> Some random text here </p>
<h1> Title 2 </h1>
<p> Some text here </p>
<p> Some other text here </p>
<h1>..<h1>

是否可以按标签

抓取内容的标签
if (<h1>)
then do something

if (<p>)
then do something else

对于每个标签

1 个答案:

答案 0 :(得分:1)

php getElementsByTagName()按标签名称选择元素。如果将*放在函数参数中,它将返回所有元素。

$dom = new DOMDocument();
$dom->loadHTML($html);
foreach ($dom->getElementsByTagName('*') as $element){
    if ($element->tagName == "h1")
        // do something
    if ($element->tagName == "p")
        // do something
}

检查demo

中的结果