我正在Django中建立一个网站,该网站将从某个网站上抓取数据,因此人们可以进入该网站,设置自定义数据过滤器并以友好格式查看抓取的数据。
问题在于requests
和beautiful soup
模块不足以进行抓取,因为我还需要完成一些自动化操作(加载javascript或单击按钮)。
由于Selenium要求将Web驱动程序下载并放入路径,是否可以在Web应用程序中使用它?像将Webdriver托管在某个地方?
除了硒以外,我也愿意接受其他解决方案。
答案 0 :(得分:1)
我认为您想要的是硒网格服务器。
https://www.seleniumhq.org/docs/07_selenium_grid.jsp
基本上,您将其托管在某个远程服务器上,然后可以连接到该服务器并远程启动Web驱动程序,并根据需要在代码中使用它们。它还带有一个方便的界面,用于检查当前的浏览器实例,甚至可以从Web ui截取屏幕截图或执行脚本。