Question

有一个网站researcherid。例如，在作者页面上，http://www.researcherid.com/rid/A-7364-2016我需要从Citation metrics窗口中检索信息。那是由ajax生成的窗口。我怎么能用Python做到这一点？我有什么工具呢？我试过了：

payload = {'key': '721889',
       'listid': 'LIST1',
       'displayName': 'My Publications', 'publicProfile': 'true', '_': ''
       }

r = requests.post('http://www.researcherid.com/rid/A-7364-2016',
              data=payload, headers={
                  'X-Requested-With': 'XMLHttpRequest'
              })
print(r.text)

但它确实有用。

Answer 1

您可以使用Selenium的网络驱动程序工具来获取动态加载的内容。只需创建一个webdriver实例，转到Citation metrics页面并将源码加载到python中。之后，您可以使用LXML或BeautifulSoup等库来删除内容。

从网站上抓取ajax内容

1 个答案: