$html = new \simple_html_dom();
$html -> load_file('h*ttp://xxx.com/article.html');
$res = $html->find('div[id=content]',0)->find('p');
$arr = array();//result set
foreach($res as $v){
$arr[] = strip_tags($v->plaintext);
}
print_r($arr);//print
我想从网页中删除内容,内容封装在< div >中ID为'content'的ID,现在,我检索用< p >附带的每个段落,实际上有另一个标签< figure >在div中,最后我得到了两个< p >的结果并且< 数字>,< 数字>不应该在那里,我有什么问题?
DOM结构
div id = content p p 数字 p 数字 p p 格
答案 0 :(得分:0)
这会有用吗?
$res = $html->find('#content p');