如何抓取来自youtube的单个剪辑的所有评论,超过100页

时间:2012-11-03 13:12:43

标签: javascript youtube web-crawler

我需要抓取来自YouTube的PSY江南风格视频的所有评论(超过2,600,000条评论,超过5000页),请参阅:http://www.youtube.com/all_comments?v=9bZkp7q19f0

问题是:

1)如果我使用gdata服务,谷歌只提供不超过1000个评论供稿

2)如果我直接抓取html标签:

site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))

通过增加页面参数,它将在页面#101之后失败,其中没有注释     显示在页面上。

所以大家都知道,我怎样才能解决这个问题呢?

P.S:我的抓取工具是使用javascript实现的chrome扩展程序,它会检查已加载页面的注释标记,然后加载下一页。

1 个答案:

答案 0 :(得分:1)

您可以通过抓取网页来提取数据,并针对遇到的问题黑客攻击代码,但这不是正确的方法。

您应该使用youtube api进行此操作,并检查与此相关的其他developer resources