Question

我需要抓取来自YouTube的PSY江南风格视频的所有评论（超过2,600,000条评论，超过5000页），请参阅：http://www.youtube.com/all_comments?v=9bZkp7q19f0

问题是：

1）如果我使用gdata服务，谷歌只提供不超过1000个评论供稿

2）如果我直接抓取html标签：

site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))

通过增加页面参数，它将在页面＃101之后失败，其中没有注释显示在页面上。

所以大家都知道，我怎样才能解决这个问题呢？

P.S：我的抓取工具是使用javascript实现的chrome扩展程序，它会检查已加载页面的注释标记，然后加载下一页。

Answer 1

您可以通过抓取网页来提取数据，并针对遇到的问题黑客攻击代码，但这不是正确的方法。

您应该使用youtube api进行此操作，并检查与此相关的其他developer resources。