如何从已抓取的网页/文章中提取标题和内容?

时间:2010-05-08 11:06:18

标签: parsing web-crawler

我需要一些关于如何检测已抓取网页的标题和内容的指南。自从我开始研究这个爬虫以来,我一直在看一些非常奇怪的前端代码。

1 个答案:

答案 0 :(得分:1)

您可以尝试Simple HTML DOM Parser。它运行语法来查找与jQuery类似的特定元素。

他们有一个关于如何刮Slashdot的例子:

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);