通过我的浏览器抓取谷歌网址的最简单方法?

时间:2011-01-23 15:17:39

标签: search screen-scraping web-scraping scrape

我想抓取搜索时通过Google搜索内容时返回的所有网址。我试过制作一个剧本,但谷歌不喜欢它,添加cookie支持和验证码太繁琐了。我正在寻找一些东西 - 当我浏览Google搜索页面时 - 会简单地获取页面上的所有URL并将它们放在.txt文件中或以某种方式存储它们。 你们中有谁知道会做那件事吗?也许是一个傻瓜脚本或firefox插件?非常感谢。谢谢!

5 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

我为Google Scholar做过类似的事情,但没有可用的API。我的方法基本上是创建一个代理Web服务器(Tomcat上的一个Java Web应用程序),它将获取页面,对其执行某些操作然后向用户显示。这是100%功能解决方案,但需要相当多的编码。如果您有兴趣,我可以了解更多细节并提供一些代码。

答案 2 :(得分:0)

谷歌的搜索结果很容易被刮掉。这是php中的一个例子。

<?
# a trivial example of how to scrape google
$html = file_get_contents("http://www.google.com/search?q=pokemon");

$dom = new DOMDocument();
@$dom->loadHTML($html);
$x = new DOMXPath($dom);
foreach($x->query("//div[@id='ires']//h3//a") as $node)
{
    echo $node->getAttribute("href")."\n";
}
?>

答案 3 :(得分:0)

  

但谷歌不喜欢它,..

您需要在代码中插入(随机)等待语句,这样您就不会“重载”网站并触发此阻止。

答案 4 :(得分:0)

您可以在http://irobotsoft.com/bookmark/index.html

尝试IRobotSoft书签插件