我对从动态内容抓取有一个一般性的问题,我试图用硒解析Reddit页面,向下滚动时会加载新内容,这是最好的方法,是在每次滚动解析后保存HTML然后再次滚动?
我想做的是在某人页面上获取图像的所有链接。
还有一个问题,如果我一直向下滚动到底部,那时的HTML(来自硒)是否将包含整个页面,即具有整个图像链接?
答案 0 :(得分:0)
如果要抓取Reddit,最简单的路径可能是:
在Reddit [https://www.reddit.com/dev/api/]
通过API搜索,而不是滚动浏览硒。如果愿意,可以使用Praw [https://praw.readthedocs.io/en/latest/]之类的库,或者根据文档直接访问API。