我正在为以下网站构建刮板:https://railway.tools/#/en
该网站内置有交互式地图,我希望收集网站上显示的数据。
但是,我找不到指向包含源代码中显示的数据的.js或.html文件的任何有用链接。有了这些,我可以找到收集正确数据的方法(但是,由于我是新手,所以我也不知道这是否是正确的方法)。
有人知道我如何访问基础数据来开始抓取网站吗?完全可以刮掉这个网站吗?
答案 0 :(得分:0)
您可以从json响应中获取地理数据:
import requests
url = 'https://railway.tools/geo.json'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
jsonData = requests.get(url, headers=headers).json()