我最近使用Java和JSoup(http://jsoup.org/)HTML解析器编写了一个自定义Web爬虫/蜘蛛。 Web爬虫非常简陋 - 它使用Jsoup connect和get方法获取页面源,然后使用其他JSoup方法来解析内容。它几乎随机地跟随它找到的任何链接,但它没有尝试下载文件或执行脚本。
抓取工具从一长串基本上随机的网页中挑选种子网页,其中一些网页可能包含成人内容和/或恶意代码。最近,当我运行爬虫时,我的反病毒(Avast)将其中一个请求标记为“检测到威胁”。违规网址看起来很恶意。
我的问题是,我的计算机是否可以通过我的网络抓取工具获取病毒或任何类型的恶意软件?我应该采取任何预防措施或检查吗?
答案 0 :(得分:3)
从理论上讲,它可以。
但是,由于您不执行Flash和类似的插件,只处理文本数据,因此您的HTML解析器没有已知漏洞的可能性很高。
此外,所有病毒和邮件网站都以 big 用户组为目标。使用JSoup的用户很少。例如,大多数人都在使用Internet Exploder。这就是病毒针对这些平台的原因。如今,Mac OSX正变得越来越有吸引力。我刚刚读到一个新的恶意软件,当他们访问网站时,通过一些旧的Java安全问题感染Mac OSX用户。它在达赖喇嘛相关的网站上被发现,所以也许它是中文。
如果你真的是偏执狂,请在你的系统上设置一个“无人”用户,这是你严格限制的。这最适合Linux。特别是对于SELinux,您可以将Web爬网程序的权限范围缩小到可以阻止其加载外部网站并将结果发送到数据库的任何内容。然后攻击者只能使您的爬虫崩溃,或者可能滥用它来进行DDoS攻击,但不会损坏或接管您的系统。