使用网址抓取大量Google学术搜索网页

时间:2017-07-19 14:15:47

标签: web-scraping beautifulsoup captcha google-scholar

我试图使用BeautifulSoup从Google学者的作者那里获得所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者截断列表,因此我必须打开论文的链接以获取完整列表。结果,我每隔几次就跑进CAPTCHA。

有没有办法避免CAPTCHA(例如每次请求后暂停3秒)?或者将原始Google学术搜索资料页面显示为完整作者列表?

1 个答案:

答案 0 :(得分:4)

最近我遇到了类似的问题。通过实现随机而不是长时间睡眠,我至少通过简单的解决方法简化了我的收集过程:

import time
import numpy as np

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds

如果你有足够的时间(让我们说晚上启动你的解析器),你可以做更大的停顿(3倍以上),以确保你不会获得验证码。

此外,您可以随意更改您对网站的请求中的user-agent,这会更加掩盖您。