我试图使用BeautifulSoup从Google学者的作者那里获得所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者截断列表,因此我必须打开论文的链接以获取完整列表。结果,我每隔几次就跑进CAPTCHA。
有没有办法避免CAPTCHA(例如每次请求后暂停3秒)?或者将原始Google学术搜索资料页面显示为完整作者列表?
答案 0 :(得分:4)
最近我遇到了类似的问题。通过实现随机和而不是长时间睡眠,我至少通过简单的解决方法简化了我的收集过程:
import time
import numpy as np
time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds
如果你有足够的时间(让我们说晚上启动你的解析器),你可以做更大的停顿(3倍以上),以确保你不会获得验证码。
此外,您可以随意更改您对网站的请求中的user-agent
,这会更加掩盖您。