我可以获取搜索结果页面的源代码。所以我的问题是如何获得更多。 对于谷歌,它只显示我获得的源代码中的前20个图像结果,对于雅虎来说它大约为50.因为在这两种情况下,真实的人需要向下滚动页面才能看到更多的搜索结果。
问题:无论如何,脚本可以为我“向下滚动”,这样我可以获得更多结果吗?
我正在使用的代码:
require_once('simple_html_dom.php');
$url = "https://www.google.com/search?tbm=isch&q=cool+image";
$html = file_get_html($url);
foreach($html->find('img') as $element) {
$image_url = $element->src;
echo $image_url, "<br />";}
答案 0 :(得分:1)
我会回答我自己的问题。 - - |||
谷歌实际上保留旧版本。要使用该版本,首先搜索一些内容,然后滚动到底部并单击“切换到基本版本”。现在每页只显示20张图片,网址包含页面参数。
因为每页显示20张图片,所以第二页的网址包含参数:
start=20
,第三页将是
start=40
此参数:url中需要sout = 1才能告诉谷歌你想要的基本版本。
总而言之,带有页码的最简单的谷歌图片搜索网址将是:
$url = "https://www.google.com/search?tbm=isch&sout=1&start=" . ($pageNum -1)*20. "&q=" . $key_word ;