PHP Scrape文章摘录如可读性

时间:2012-07-30 16:19:18

标签: php web-scraping

我见过this question,但它并不能满足我的要求。该问题的答案要么是:从元描述标签中提升,第二个是为您已经拥有该主体的文章生成摘录。

我想要做的实际上是获取文章的前几句话,就像Readability一样。这不是最好的方法吗? HTML解析?这是我目前使用的,但这不是很可靠。

function guessExcerpt($url) {
    $html = file_get_contents_curl($url);

    $doc = new DOMDocument();
    @$doc->loadHTML($html);

    $metas = $doc->getElementsByTagName('meta');

    for ($i = 0; $i < $metas->length; $i++)
    {
        $meta = $metas->item($i);
        if($meta->getAttribute('name') == 'description')
            $description = $meta->getAttribute('content');

    }

    return $description;
}

function file_get_contents_curl($url) {
    $ch = curl_init();

    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_TIMEOUT, 5);
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

    $data = curl_exec($ch);
    curl_close($ch);

    return $data;
}

0 个答案:

没有答案