Question

我正在使用bs4和urllib从Google学术搜索中抓取数据。我试图在第一年发表一篇文章。例如，从this page我试图获得1996年。这可以从条形图中读取，但只有在点击条形图后才能读取。我编写了以下代码，但在单击条形图之前打印出可见年份。

from bs4 import BeautifulSoup
import urllib.request

url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
year = soup.find('span', {"class": "gsc_g_t"})
print (year)

Answer 1

图表信息位于不同的请求this one。在那里，您可以使用以下xpath获取所需信息：

'//span[@class="gsc_g_t"][1]/text()'

或在汤中：

soup.find('span', {"class": "gsc_g_t"}).text

获得Google Scholar首次发布年份

1 个答案: