我知道我应该使用像php domdocument(http://docs.php.net/manual/en/domdocument.loadhtml.php)或tagsoup这样的html解析器。
我如何使用php domdocument在特定标签之间提取文本,例如在h1,h2,h3,p,table之间获取文本?看来我只能用getelementbytagname为一个标签做这个。
这样的任务有更好的html解析器吗?或者我将如何循环php domdocument?
答案 0 :(得分:7)
你是对的,使用DomDocument(因为正则表达式不是解析HTML的好主意。为什么?请参阅here和here了解原因)。
getElementsByTagName
为您提供DOMNodeList,您可以迭代以获取所有找到的元素的文本。所以,你的代码看起来像:
$document = new \DOMDocument();
$document->loadHTML($html);
$tags = array ('h1', 'h2', 'h3', 'h4', 'p');
$texts = array ();
foreach($tags as $tag)
{
$elementList = $document->getElementsByTagName($tag);
foreach($elementList as $element)
{
$texts[$element->tagName][] = $element->textContent;
}
}
return $texts;
请注意,您应该在那里进行一些错误处理,并且您也会丢失文本的上下文,但您可以根据需要编辑此代码。
答案 1 :(得分:0)
你可以使用正则表达式。
preg_match_all('#<h1>([^<]*)</h1>#Usi', $html_string, $matches);
foreach ($matches as $match)
{
// do something with $match
}
答案 2 :(得分:0)
我不确定你的来源是什么,所以我添加了一个函数来通过URL获取内容。
$file = file_get_contents($url);
$doc = new DOMDocument();
$doc->loadHTML($file);
$body = $doc->getElementsByTagName('body');
$h1 = $body->getElementsByTagName('h1');
我不确定这一部分:
for ($i = 0; $i < $items->length; $i++) {
echo $items->item($i)->nodeValue . "\n";
}
或者:
foreach ($items as $item) {
echo $item->nodeValue . "\n";
}
以下是有关nodeValue的更多信息:http://docs.php.net/manual/en/function.domnode-node-value.php
希望它有所帮助!