Question

我们的脚本使用dom来解析文档中的所有标记，然后遍历子节点并提取在这里工作正常的信息

@$dom->loadHTML($str);
$documentLinks = $dom->getElementsByTagName("a");

循环的一部分

$this->count]['href']     = strip_tags($documentLink->getAttribute('href'));

我现在需要从每个页面获取标题标签，以便我能够做到这一点

$documentTitle = $dom->getElementsByTagName("title");
$documentLinks = $dom->getElementsByTagName("a");

然后将其添加到循环/数组以获取文档标题，但它返回“[title] =＆gt; DOMNodeList Object（）”如何在循环中包含标记标记/标记/子节点？

$this->count]['title']  = $documentTitle;

Answer 1

getElementsByTagName returns a DOMNodeList object。您需要列表中第一个（应该只是一个页面标题）项目的文本内容。

试试这个：

$documentTitle = $dom->getElementsByTagName('title')->item(0)->textContent;