我制作了这个简单的PHP网页抓取工具,它在打开正文标记之后从页面获取源代码,剥离其他HTML标记,然后回显内容。
当我发起它给它一个以.html结尾的页面时它起作用,但是当我提供一个URL来表示来自Google的一组结果的URL时,它不会跟随这些链接并获取内容并回显内容。
如何让它遵循Google搜索结果的网址并按照其中的链接并回显其内容?
以下是抓取工具的代码:
error_reporting( E_ERROR );
define( "CRAWL_LIMIT_PER_DOMAIN", 50 );
$domains = array();
$urls = array();
$dom = new DOMDocument();
$matches = array();
function crawl( $domObject, $url, $matchList )
{
global $domains, $urls;
$parse = parse_url( $url );
$domains[ $parse['host'] ]++;
$urls[] = $url;
$content = file_get_contents( $url );
if ( $content === FALSE ){
return;
}
$content = stristr($content, "<body>");
$domObject->loadHTML($content);
$anchors = $domObject->getElementsByTagName('a');
foreach($anchors as $anchor){
if(preg_match('/(?:https?:\/\/|www)[^\'\" ]*/i', (string)($anchor->getAttribute('href')))){
array_push($matchList, (string)($anchor->getAttribute('href')));
}
else{
preg_match('/(?:https?:\/\/|www)[^\/]+(?:\S*?\/)*/i', $url, $beginings);
$urlPrefix = $beginings[0];
$absolute = (string)(((string)$urlPrefix).((string)$anchor->getAttribute('href')));
array_push($matchList, $absolute);
}
}
echo strip_tags($content) . "<br /><br /><br />";
foreach( $matchList as $crawled_url ) {
$parse = parse_url( $crawled_url );
if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
sleep( 1 );
crawl( $domObject, $crawled_url, $matchList );
}
}
}
crawl($dom, 'http://www.google.com/search?q=google', $matches);
答案 0 :(得分:3)
我不确定您使用什么来下载网址。
我建议使用它:
http://semlabs.co.uk/journal/object-oriented-curl-class-with-multi-threading
我很确定Google会在搜索结果中使用301或302重定向链接。所以你需要你的爬虫跟随重定向。我认为这是问题所在。
使用该类,您需要使用选项:CURLOPT_FOLLOWLOCATION
请参阅:http://php.net/manual/en/function.curl-setopt.php
此外,如果您打算取消谷歌,您需要大量的睡眠,或者一些好的代理。 Google会阻止自动查询。解决这个问题的方法是通过Google自定义搜索为Google XML结果支付100美元。