Question

我有一个从HTML源获取标题的函数（我首先卷曲它然后将源传递给它）：

function get_dom_page_title($source){
    $doc = new DOMDocument('1.0', 'utf-8');
    $doc->formatOutput = false;
    $doc->preserveWhiteSpace = false;
    $doc->strictErrorChecking = false; 
    @$doc->loadHTML('<?xml encoding="UTF-8">' . $source);

    $title = $doc->getElementsByTagName("title")->item(0)->nodeValue;

    if ($title !== ""){
        return (string)$title;
    }
    else{
        return false;
    }
}

但是，当我输入youtube链接http://www.youtube.com/watch?v=IFeE4q4-M0o时，返回的标题很奇怪：â€ªArsenal vs Benfica FT Highlightsâ€¬â€ - YouTube或\n \u202aArsenal vs Benfica FT Highlights\u202c\u200f\n - YouTube\n。

我该如何排序？

Answer 1

您可以使用DOMDocument

执行相同的操作

$doc = new DOMDocument();
$doc->loadHTML(file_get_contents('http://www.youtube.com/watch?v=IFeE4q4-M0o'));
$t = $doc->getElementsByTagName("title")->item(0)->nodeValue;
print_r($t);

与Simple相比，使用DOMDocument意味着更快的DOM处理。

Answer 2

使用PHP Simple HTML DOM Parser

代码：

include("simple_html_dom.php");
$html = file_get_html('http://www.youtube.com/watch?v=IFeE4q4-M0o');
$title = $html->getElementsByTagName("title")->innertext;
echo preg_replace('/&#x([0-9a-f]+);/ei', 'chr(hexdec("$1"))', $title)

将输出* Arsenal vs Benfica FT亮点， - YouTube

PHP简单的HTML DOM解析器意味着更少的代码和一致的结果：）

使用php domdocument获取youtube视频的标题

2 个答案: