从网站上抓取ajax内容

时间:2018-05-15 13:52:43

标签: python ajax

有一个网站researcherid。 例如,在作者页面上,http://www.researcherid.com/rid/A-7364-2016我需要从Citation metrics窗口中检索信息。那是由ajax生成的窗口。我怎么能用Python做到这一点?我有什么工具呢? 我试过了:

payload = {'key': '721889',
       'listid': 'LIST1',
       'displayName': 'My Publications', 'publicProfile': 'true', '_': ''
       }

r = requests.post('http://www.researcherid.com/rid/A-7364-2016',
              data=payload, headers={
                  'X-Requested-With': 'XMLHttpRequest'
              })
print(r.text)

但它确实有用。

1 个答案:

答案 0 :(得分:0)

您可以使用Selenium的网络驱动程序工具来获取动态加载的内容。只需创建一个webdriver实例,转到Citation metrics页面并将源码加载到python中。之后,您可以使用LXMLBeautifulSoup等库来删除内容。