应用错误收集

带有JS事件的Web爬网页面

时间：2018-10-01 13:47:20

标签： javascript python web-crawler

我正试图从allmusic.com获取2018年发行的单曲名单。

很容易进入他们的高级搜索页面并输入这些参数，但是随后我将不得不手动复制和粘贴信息。所有信息都在html中，但是它是通过单击搜索按钮和页面导航按钮生成的。网址本身不变。那使我无法通过我有限的漂亮汤技能爬行。

有人知道如何通过网络抓取Java脚本生成的html吗？

1 个答案:

答案 0 :(得分：0)

在不研究特定网站的详细信息的情况下，我想您需要找出JS代码正在执行的HTTP请求并从那里反向进行工作。首先检查网络调用（例如，在Chrome DevTools中，只需在“网络”标签中查看），然后编写一些内容以进行相同的调用来检索数据。