我正试图从allmusic.com获取2018年发行的单曲名单。
很容易进入他们的高级搜索页面并输入这些参数,但是随后我将不得不手动复制和粘贴信息。所有信息都在html中,但是它是通过单击搜索按钮和页面导航按钮生成的。网址本身不变。那使我无法通过我有限的漂亮汤技能爬行。
有人知道如何通过网络抓取Java脚本生成的html吗?
答案 0 :(得分:0)
在不研究特定网站的详细信息的情况下,我想您需要找出JS代码正在执行的HTTP请求并从那里反向进行工作。 首先检查网络调用(例如,在Chrome DevTools中,只需在“网络”标签中查看),然后编写一些内容以进行相同的调用来检索数据。