我需要抓取来自YouTube的PSY江南风格视频的所有评论(超过2,600,000条评论,超过5000页),请参阅:http://www.youtube.com/all_comments?v=9bZkp7q19f0
问题是:
1)如果我使用gdata服务,谷歌只提供不超过1000个评论供稿
2)如果我直接抓取html标签:
site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))
通过增加页面参数,它将在页面#101之后失败,其中没有注释 显示在页面上。
所以大家都知道,我怎样才能解决这个问题呢?
P.S:我的抓取工具是使用javascript实现的chrome扩展程序,它会检查已加载页面的注释标记,然后加载下一页。
答案 0 :(得分:1)
您可以通过抓取网页来提取数据,并针对遇到的问题黑客攻击代码,但这不是正确的方法。
您应该使用youtube api进行此操作,并检查与此相关的其他developer resources。