使用Selenium WebDriver进行自动网络抓取会有危险吗?

时间:2017-08-26 23:31:10

标签: selenium security selenium-webdriver web-crawler selenium-chromedriver

我想抓取从网址生成器收到的一组随机网站,使用Selenium的ChromeDriverCrawljax对捕获的DOM状态进行静态代码分析。

对于进行爬网的机器,这可能不安全吗?

我担心的是,其中一个随机生成的网站是恶意的,并且从ChromeDriver(用于捕获新的DOM状态)执行JavaScript会以某种方式感染运行测试的计算机。我应该在某种沙盒环境中运行吗?

- 编辑 -

如果重要,爬虫完全用Java实现。

2 个答案:

答案 0 :(得分:1)

简单回答,没有。只有你害怕饼干,即使你是,你的机器也不是。

答案 1 :(得分:0)

很难说它非常安全,你应该知道网络中没有绝对安全。最近,Chrome RCE已被推出,详情如下: SSD Advisory – Chrome Turbofan Remote Code Execution – SecuriTeam Blogs

这可能会影响Selenium的ChromeDriver

但是你可以对你的系统进行一些强制执行,例如将防火墙模式更改为白名单,只允许你的python脚本和selenium通过端口80,443访问互联网。

即使您的系统受到RCE的影响,恶意代码仍无法访问互联网,除非它向您注入python进程(我认为在浏览器RCE中使用js脚本非常困难)。

另一个选择:安装HIPS,如果你的python脚本除了抓取网页(比如启动其他进程)或读/写其他一些文件之外还想做其他任何事情,你就会知道它并决定做什么。

在我的竞争中,在虚拟机中进行爬行并在防火墙上执行一些操作(Windows防火墙或Linux iptables),在Windows中关闭无用的服务。这就够了。

总之,难以找到安全性和便利性之间的平衡,并且不相信您的系统是牢不可破的