我尝试在Python和BeautifulSoup的帮助下抓取某些网站。
当网站使用带有此类URL的ajax查询时:
https://techcrunch.com/wp-json/tc/v1/magazine?page=2&_embed=true,
我可以获取JSON内容并进行分析。 但是,如何检测此链接以自动执行查询以获取JSON内容?
谢谢, 拉塔
答案 0 :(得分:0)
我建议除了BeautifulSoup之外,还使用 requests 库。
假设您有可靠的方式来抓取这些网址,则可以执行以下操作:
import requests
# ...
response = requests.get('https://techcrunch.com/wp-json/tc/v1/magazine?page=2&_embed=true')
try:
json_response = response.json()
# GET request returned a JSON response
# ...
except ValueError:
# GET request did not return JSON response
# ...