URL检索服务的最佳实践?如何避免被攻击向量?

时间:2009-03-01 19:27:02

标签: security webproxy

我正在修补一个网络工具,给定一个URL,它将检索文本并向用户提供有关内容的一些统计信息。

我担心让用户通过我的盒子向网络上的任意URL发起GET请求的方法可以作为攻击的载体(例如http://undefended.box/broken-sw/admin?do_something_bad)。

有没有办法将风险降至最低?提供公共URL检索能力时的任何最佳实践?

我想过的一些想法:

  • 尊重robots.txt
  • 仅接受或拒绝某些网址格式
  • 检查适当网站的黑名单/白名单(如果存在这样的事情)
  • 在一个着名的第三方公共网络代理服务器上工作,假设他们已经内置了这些安全措施

感谢您的帮助。

编辑:它将仅评估HTML或文本内容,而无需下载或评估链接的脚本,图像等。如果是HTML,我将使用HTML解析器。

1 个答案:

答案 0 :(得分:2)

关于文档中的文字,统计信息是吗?您打算使用HTML解析器进行评估吗?

如果只是您要分析的文本,即不下载其他链接,评估脚本等,那么风险就不那么严重了。

传递通过反病毒程序下载的每个文件可能不会有什么坏处。您还应该将GET限制为某些内容类型(即不要下载二进制文件;确保它是某种文本编码)。