Question

我试图使用BeautifulSoup从Google学者的作者那里获得所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者截断列表，因此我必须打开论文的链接以获取完整列表。结果，我每隔几次就跑进CAPTCHA。

有没有办法避免CAPTCHA（例如每次请求后暂停3秒）？或者将原始Google学术搜索资料页面显示为完整作者列表？

Answer 1

最近我遇到了类似的问题。通过实现随机和而不是长时间睡眠，我至少通过简单的解决方法简化了我的收集过程：

import time
import numpy as np

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds

如果你有足够的时间（让我们说晚上启动你的解析器），你可以做更大的停顿（3倍以上），以确保你不会获得验证码。

此外，您可以随意更改您对网站的请求中的user-agent，这会更加掩盖您。