我们的脚本使用dom来解析文档中的所有标记,然后遍历子节点并提取在这里工作正常的信息
@$dom->loadHTML($str);
$documentLinks = $dom->getElementsByTagName("a");
循环的一部分
$this->count]['href'] = strip_tags($documentLink->getAttribute('href'));
我现在需要从每个页面获取标题标签,以便我能够做到这一点
$documentTitle = $dom->getElementsByTagName("title");
$documentLinks = $dom->getElementsByTagName("a");
然后将其添加到循环/数组以获取文档标题,但它返回“[title] => DOMNodeList Object()”如何在循环中包含标记标记/标记/子节点?
$this->count]['title'] = $documentTitle;
答案 0 :(得分:2)
getElementsByTagName returns a DOMNodeList object。您需要列表中第一个(应该只是一个页面标题)项目的文本内容。
试试这个:
$documentTitle = $dom->getElementsByTagName('title')->item(0)->textContent;