动态内容中的Web抓取

时间:2019-03-09 17:33:54

标签: python selenium web-scraping

我对从动态内容抓取有一个一般性的问题,我试图用硒解析Reddit页面,向下滚动时会加载新内容,这是最好的方法,是在每次滚动解析后保存HTML然后再次滚动?

我想做的是在某人页面上获取图像的所有链接。

还有一个问题,如果我一直向下滚动到底部,那时的HTML(来自硒)是否将包含整个页面,即具有整个图像链接?

1 个答案:

答案 0 :(得分:0)

如果要抓取Reddit,最简单的路径可能是:

  1. 在Reddit [https://www.reddit.com/dev/api/]

  2. 上创建一个API帐户
  3. 通过API搜索,而不是滚动浏览硒。如果愿意,可以使用Praw [https://praw.readthedocs.io/en/latest/]之类的库,或者根据文档直接访问API。