我正在使用bs4和urllib从Google学术搜索中抓取数据。我试图在第一年发表一篇文章。例如,从this page我试图获得1996年。这可以从条形图中读取,但只有在点击条形图后才能读取。我编写了以下代码,但在单击条形图之前打印出可见年份。
from bs4 import BeautifulSoup
import urllib.request
url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
year = soup.find('span', {"class": "gsc_g_t"})
print (year)
答案 0 :(得分:2)
图表信息位于不同的请求this one。在那里,您可以使用以下xpath获取所需信息:
'//span[@class="gsc_g_t"][1]/text()'
或在汤中:
soup.find('span', {"class": "gsc_g_t"}).text