我想抓取从网址生成器收到的一组随机网站,使用Selenium的ChromeDriver和Crawljax对捕获的DOM状态进行静态代码分析。
对于进行爬网的机器,这可能不安全吗?
我担心的是,其中一个随机生成的网站是恶意的,并且从ChromeDriver(用于捕获新的DOM状态)执行JavaScript会以某种方式感染运行测试的计算机。我应该在某种沙盒环境中运行吗?
- 编辑 -
如果重要,爬虫完全用Java实现。
答案 0 :(得分:1)
简单回答,没有。只有你害怕饼干,即使你是,你的机器也不是。
答案 1 :(得分:0)
很难说它非常安全,你应该知道网络中没有绝对安全。最近,Chrome RCE已被推出,详情如下: SSD Advisory – Chrome Turbofan Remote Code Execution – SecuriTeam Blogs
这可能会影响Selenium的ChromeDriver
但是你可以对你的系统进行一些强制执行,例如将防火墙模式更改为白名单,只允许你的python脚本和selenium通过端口80,443访问互联网。
即使您的系统受到RCE的影响,恶意代码仍无法访问互联网,除非它向您注入python进程(我认为在浏览器RCE中使用js脚本非常困难)。
另一个选择:安装HIPS,如果你的python脚本除了抓取网页(比如启动其他进程)或读/写其他一些文件之外还想做其他任何事情,你就会知道它并决定做什么。
在我的竞争中,在虚拟机中进行爬行并在防火墙上执行一些操作(Windows防火墙或Linux iptables),在Windows中关闭无用的服务。这就够了。
总之,难以找到安全性和便利性之间的平衡,并且不相信您的系统是牢不可破的