Question

我正在学习如何使用草率的方法，我想从此website中提取一些youtube视频链接。我已经编写了此脚本来提取网站到json文件的链接。

RouteObserver

我得到一个空的响应（如下图所示）。我在另一个网站上尝试过，效果很好，这是第二个结果。 The results

您能帮我解决这个问题吗？ xpath似乎是正确的...

Answer 1

视频不在原始请求的html中。而是在加载第一页视频后发出第二个请求。

好消息是，这些视频的URL很容易找到，并且结果格式简单。该文件包含YouTube视频ID和视频标签。

https://storage.googleapis.com/audioset_website_data/youtube_corpus/v1/eval/baby_cry_infant_cry/1.js

这是该URL中文件的示例。

["2TV2DW0bzBg", 0.0, 8.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["2eWobSpugTw", 17.0, 27.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["2fKgYlCx_As", 26.0, 36.0, [["Crying, sobbing", "crying_sobbing"], ["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["3KwulXmBX-8", 30.0, 40.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["4KxLSx-EhHI", 0.0, 9.0, [["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]],

抓取网页：空结果

1 个答案: