应用错误收集

动态内容中的Web抓取

时间：2019-03-09 17:33:54

标签： python selenium web-scraping

我对从动态内容抓取有一个一般性的问题，我试图用硒解析Reddit页面，向下滚动时会加载新内容，这是最好的方法，是在每次滚动解析后保存HTML然后再次滚动？

我想做的是在某人页面上获取图像的所有链接。

还有一个问题，如果我一直向下滚动到底部，那时的HTML（来自硒）是否将包含整个页面，即具有整个图像链接？

1 个答案:

答案 0 :(得分：0)

如果要抓取Reddit，最简单的路径可能是：

在Reddit [https://www.reddit.com/dev/api/]
通过API搜索，而不是滚动浏览硒。如果愿意，可以使用Praw [https://praw.readthedocs.io/en/latest/]之类的库，或者根据文档直接访问API。