我正在尝试从https://www.mathworks.com/help/抓取Matlab模块的文档链接。
我通常在Google Chrome浏览器中查看页面源,以查看所需信息的模式。在这种情况下,我无法通过查看页面源看到该信息。
如您所见,左侧框中有一个与项目相对应的链接。我想提取该框中所有项目的名称及其对应的链接。
谢谢您的帮助!
答案 0 :(得分:1)
找到了他们用于该部分的json。在这里:
import requests
help_json = requests.get('https://www.mathworks.com/help/all_product_doc.json').json()
base_url = 'https://www.mathworks.com/help/'
for content in help_json:
print(content['displayname'])
print(base_url+content['helplocation']+'\n')