获得Google Scholar首次发布年份

时间:2016-12-27 16:26:05

标签: python python-3.x web-scraping bs4 google-scholar

我正在使用bs4和urllib从Google学术搜索中抓取数据。我试图在第一年发表一篇文章。例如,从this page我试图获得1996年。这可以从条形图中读取,但只有在点击条形图后才能读取。我编写了以下代码,但在单击条形图之前打印出可见年份。

from bs4 import BeautifulSoup
import urllib.request

url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
year = soup.find('span', {"class": "gsc_g_t"})
print (year)

1 个答案:

答案 0 :(得分:2)

图表信息位于不同的请求this one。在那里,您可以使用以下xpath获取所需信息:

'//span[@class="gsc_g_t"][1]/text()'

或在汤中:

soup.find('span', {"class": "gsc_g_t"}).text