我正在学习如何使用草率的方法,我想从此website中提取一些youtube视频链接。我已经编写了此脚本来提取网站到json文件的链接。
RouteObserver
我得到一个空的响应(如下图所示)。我在另一个网站上尝试过,效果很好,这是第二个结果。 The results
您能帮我解决这个问题吗? xpath似乎是正确的...
答案 0 :(得分:0)
视频不在原始请求的html中。而是在加载第一页视频后发出第二个请求。
好消息是,这些视频的URL很容易找到,并且结果格式简单。该文件包含YouTube视频ID和视频标签。
https://storage.googleapis.com/audioset_website_data/youtube_corpus/v1/eval/baby_cry_infant_cry/1.js
这是该URL中文件的示例。
["2TV2DW0bzBg", 0.0, 8.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]],
["2eWobSpugTw", 17.0, 27.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]],
["2fKgYlCx_As", 26.0, 36.0, [["Crying, sobbing", "crying_sobbing"], ["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]],
["3KwulXmBX-8", 30.0, 40.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]],
["4KxLSx-EhHI", 0.0, 9.0, [["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]],