我正在尝试使用JS抓取Google Scholar网站。该表的底部带有“加载更多”按钮。供参考,请参见此页面:https://scholar.google.com/citations?hl=en&user=m8dFEawAAAAJ
显然,我在“加载更多”按钮上使用了btn.click(),直到该按钮被“禁用”为止。然后,我报废了数据。有人可以告诉我一种更好的方式来抓取整个表格数据吗?
答案 0 :(得分:0)
如果单击Notice that é is non English character.
按钮,则会看到下一个请求是在URL末尾附加了以下查询字符串的:
simple "Hello"
由于Show more
可能引用了count start之类的内容,因此您可以将参数值交换为类似这样的内容,该参数值应显示从第一个开始的接下来的1000个项目:
&cstart=20&pagesize=80