我正在做一些研究 我想抓取youtube视频链接(然后获取视频ID)
例如,如果我在youtube搜索栏上输入关键字“obama” 那么youtube.com将返回结果页面
http://www.youtube.com/results?search_query=htc&page=2 将页面向下滚动到底部 我们可以看到页码1 2 3 4 5 6 7 点击页码2到3到4到5 .... 然后我们可以达到最大页码:50
所以我想从1到50下载所有页面 有一个网址技巧,比如
http://www.youtube.com/results?search_query=obama&page=5
但是,如果我使用wget下载每个页面,有时下载将被阻止 或者有时,当页码很大时,返回的页面不是异常页面。
所以正确的方法是手动点击页码按钮并使用网页浏览器下载每个页面,是否可以自动执行手动程序? 我在互联网上搜索,一些人提到了chrome javascript扩展, 无论如何,有没有办法编写一些自动化脚本来模仿手动操作?谢谢!
答案 0 :(得分:1)
为什么不直接使用他们的API?爬行通常是不好的做法。
https://developers.google.com/youtube/2.0/developers_guide_protocol
https://developers.google.com/youtube/2.0/developers_guide_protocol_api_query_parameters
https://gdata.youtube.com/feeds/api/videos? q=football+-soccer &orderby=published &start-index=11 &max-results=10 &v=2