有一个网站researcherid。
例如,在作者页面上,http://www.researcherid.com/rid/A-7364-2016我需要从Citation metrics
窗口中检索信息。那是由ajax生成的窗口。我怎么能用Python做到这一点?我有什么工具呢?
我试过了:
payload = {'key': '721889',
'listid': 'LIST1',
'displayName': 'My Publications', 'publicProfile': 'true', '_': ''
}
r = requests.post('http://www.researcherid.com/rid/A-7364-2016',
data=payload, headers={
'X-Requested-With': 'XMLHttpRequest'
})
print(r.text)
但它确实有用。
答案 0 :(得分:0)
您可以使用Selenium
的网络驱动程序工具来获取动态加载的内容。只需创建一个webdriver实例,转到Citation metrics
页面并将源码加载到python中。之后,您可以使用LXML
或BeautifulSoup
等库来删除内容。