如何提取在Google Chrome浏览器中查看页面源时未显示的信息?

时间:2019-06-19 02:37:20

标签: python-3.x web-scraping

我正在尝试从https://www.mathworks.com/help/抓取Matlab模块的文档链接。

我通常在Google Chrome浏览器中查看页面源,以查看所需信息的模式。在这种情况下,我无法通过查看页面源看到该信息。

enter image description here

如您所见,左侧框中有一个与项目相对应的链接。我想提取该框中所有项目的名称及其对应的链接。

谢谢您的帮助!

1 个答案:

答案 0 :(得分:1)

找到了他们用于该部分的json。在这里:


import requests

help_json = requests.get('https://www.mathworks.com/help/all_product_doc.json').json()

base_url = 'https://www.mathworks.com/help/'

for content in help_json:
    print(content['displayname'])
    print(base_url+content['helplocation']+'\n')