抓取网页:空结果

时间:2020-03-05 17:57:58

标签: python web-scraping scrapy

我正在学习如何使用草率的方法,我想从此website中提取一些youtube视频链接。我已经编写了此脚本来提取网站到json文件的链接。

RouteObserver

我得到一个空的响应(如下图所示)。我在另一个网站上尝试过,效果很好,这是第二个结果。 The results

您能帮我解决这个问题吗? xpath似乎是正确的...

1 个答案:

答案 0 :(得分:0)

视频不在原始请求的html中。而是在加载第一页视频后发出第二个请求。

好消息是,这些视频的URL很容易找到,并且结果格式简单。该文件包含YouTube视频ID和视频标签。

https://storage.googleapis.com/audioset_website_data/youtube_corpus/v1/eval/baby_cry_infant_cry/1.js

这是该URL中文件的示例。

["2TV2DW0bzBg", 0.0, 8.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["2eWobSpugTw", 17.0, 27.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["2fKgYlCx_As", 26.0, 36.0, [["Crying, sobbing", "crying_sobbing"], ["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["3KwulXmBX-8", 30.0, 40.0, [["Baby cry, infant cry", "baby_cry_infant_cry"]]], 
["4KxLSx-EhHI", 0.0, 9.0, [["Speech", "speech"], ["Baby cry, infant cry", "baby_cry_infant_cry"]]],