我想抓一些学术搜索引擎,例如:http://scholar.google.com/scholar?hl=en&q=internet&btnG=&as_sdt=1%2C5&as_sdtp= 我想获得标题,仅包含pdf文件的数据的URL地址。 这是代码:
require_once 'simple_html_dom.php';
$url = 'http://scholar.google.com/scholar?hl=en&q=internet&btnG=&as_sdt=1%2C5&as_sdtp=';
$html = file_get_html($url) or die ('');
foreach($html->find('h3[class=gs_rt] a') as $link1){
foreach($link1->parent()->parent()->parent()->find('div[class=gs_md_wp]') as $link2){
$docLink = $link2->first_child();
$link = $docLink->href;
$mime = mime_content_type($link);
if ($mime == 'application/pdf'){
$title = strip_tags($link1->plaintext);echo $title;
$webLink = strip_tags($link1->href);echo $webLink;
$pdfLink = strip_tags($link);echo $link;
}
}
}
但我收到警告Fatal error: Call to undefined function mime_content_type() in D:\AppServ\www\ekstension\try3.php on line 10
。
fyi,我在php.ini中激活了extension=php_mime_magic.dll
。怎么了 ?感谢