抓取时如何处理大的无限滚动页面?

时间:2021-07-10 21:40:57

标签: selenium selenium-webdriver web-scraping selenium-chromedriver

我正在尝试抓取网站中的评论。在评论太多(大约 10000 条)之后,无头 chrome 驱动程序变得非常慢。是否有任何可以滚动到底部并为我保存页面的解决方法(或在线工具或其他工具,可以是非免费的,甚至是非 Python 的)?我的问题似乎是内存/性能问题,尽管我的计算机通常速度很快(16GB 内存)并且程序运行时有 8GB 可用。运行时间呈指数增长。

如果有帮助,请提供更多信息:我正在使用 selenium,重要的代码行如下:

from webdriver_manager.chrome import ChromeDriverManager
import selenium as se
options = se.webdriver.ChromeOptions()
options.add_argument('headless')
driver = webdriver.Chrome(ChromeDriverManager().install(),options=options)
driver.get(url)
body = driver.find_element_by_css_selector('body')
for i in range(10**4)
    body.send_keys(Keys.END)

0 个答案:

没有答案