如何从谷歌学者那里获取有关特定领域所有教授的信息(引文,h-索引,当前工作机构等)?

时间:2015-04-25 00:44:45

标签: python web-scraping

我想通过数据挖掘和分析技术比较全世界不同机构中特定领域的教授的不同信息(引文,h-索引等)。但我不知道如何从数百名(甚至数千名)教授那里提取这些数据,因为Google没有为其提供官方API。所以我想知道还有其他办法吗?

2 个答案:

答案 0 :(得分:-1)

使用此google code tool将计算单个h-index,但如果您在特定字段中对有限数量的请求执行此操作,则不会破坏terms of use - 它没有特别指向访问限制,但确实是指服务中断(例如批量请求可能会这样做)export问题:

我写了一个程序来下载大量搜索结果,但是您阻止我的计算机访问Google学术搜索。你能提高限额吗?
    呃,不,请在使用自动化软件访问Google学术搜索时尊重我们的robots.txt。作为履带式鞋和网站管理员的佩戴者,我们不能高度推荐遵守网络标准。

Web of Science确实有一个API和一个collaboration agreement with google scholar但仅适用于certain individuals的Web of Science

解决方案可以是请求用户的科学凭证(或您自己的)根据需要返回信息 - 可能是该领域的顶级信息,然后按照您的计划存储它。谷歌学者每周只更新几次,这不会过度使用。

另一个选项是谷歌的请求权限,这是使用条款中提到的,虽然似乎不太可能被授予。

答案 1 :(得分:-1)

我已经为此完成了project

您向脚本提供了一个输入文本文件,其中包含您想从中检索信息的教授的姓名,并且该脚本能够抓取Google Scholar和管理您感兴趣的信息。

该项目还提供了用于自动下载研究人员/教授的个人资料图片的功能。

为了遵守门户网站施加的约束,您可以在每个请求之间设置一个延迟。如果您要抓取的配置文件> 1k,则可能需要一段时间,但可以使用。

还启用了并发脚本,其运行速度比基本序列方法快。

注意:要指定信息,您需要知道google Scholar生成的html类的ID或类的名称。

祝你好运!