Question

为基于Python的Web应用程序清理用户输入的最佳方法是什么？是否有一个函数可以删除HTML字符和任何其他必要的字符组合，以防止XSS或SQL注入攻击？

Answer 1

以下是一个代码段，它会删除不在白名单上的所有代码，以及所有不属于白名单的代码属性（因此您无法使用onclick）。

它是http://www.djangosnippets.org/snippets/205/的修改版本，其中包含属性值的正则表达式，以防止人们使用href="javascript:..."，以及http://ha.ckers.org/xss.html中描述的其他情况。（例如<a href="ja	vascript:alert('hi')">或<a href="ja vascript:alert('hi')">等）

如您所见，它使用（真棒）BeautifulSoup库。

import re
from urlparse import urljoin
from BeautifulSoup import BeautifulSoup, Comment

def sanitizeHtml(value, base_url=None):
    rjs = r'[\s]*(&#x.{1,7})?'.join(list('javascript:'))
    rvb = r'[\s]*(&#x.{1,7})?'.join(list('vbscript:'))
    re_scripts = re.compile('(%s)|(%s)' % (rjs, rvb), re.IGNORECASE)
    validTags = 'p i strong b u a h1 h2 h3 pre br img'.split()
    validAttrs = 'href src width height'.split()
    urlAttrs = 'href src'.split() # Attributes which should have a URL
    soup = BeautifulSoup(value)
    for comment in soup.findAll(text=lambda text: isinstance(text, Comment)):
        # Get rid of comments
        comment.extract()
    for tag in soup.findAll(True):
        if tag.name not in validTags:
            tag.hidden = True
        attrs = tag.attrs
        tag.attrs = []
        for attr, val in attrs:
            if attr in validAttrs:
                val = re_scripts.sub('', val) # Remove scripts (vbs & js)
                if attr in urlAttrs:
                    val = urljoin(base_url, val) # Calculate the absolute url
                tag.attrs.append((attr, val))

    return soup.renderContents().decode('utf8')

正如其他海报所说的那样，几乎所有的Python数据库都会处理SQL注入，所以这几乎应该涵盖你。

Answer 2

编辑：bleach是html5lib的包装，可以更轻松地用作基于白名单的杀毒软件。

html5lib附带一个基于白名单的HTML清理程序 - 可以很容易地将其子类化以限制用户可以在您的网站上使用的标记和属性，如果您允许使用它甚至会尝试清理CSS style属性。

现在我在Stack Overflow克隆的sanitize_html效用函数中使用它：

http://code.google.com/p/soclone/source/browse/trunk/soclone/utils/html.py

我已经抛出了ha.ckers.org's XSS Cheatsheet中列出的所有攻击（在使用available in XML format执行Markdown到HTML转换之后很容易python-markdown2，并且似乎已经保持正常。< / p>

Stackoverflow目前使用的WMD编辑器组件是一个问题，但实际上我必须禁用JavaScript才能测试XSS Cheatsheet攻击，因为将它们全部粘贴到WMD中最终会给我提醒警告框并消隐页面。

Answer 3

防止XSS的最佳方法不是尝试过滤所有内容，而是简单地进行HTML实体编码。例如，自动转向＆lt;进入＆amp; lt;。这是一个理想的解决方案，假设您不需要接受任何html输入（在论坛/评论区域之外，它用作标记，应该很少需要接受HTML）;通过备用编码有很多排列，除了超限制白名单（例如a-z，A-Z，0-9）之外的任何东西都会让一些东西通过。

如果您只是构建一个查询字符串，那么SQL注入与其他观点相反仍然是可能的。例如，如果您只是将传入参数连接到查询字符串，那么您将拥有SQL注入。防止这种情况的最佳方法也不是过滤，而是虔诚地使用参数化查询并且永远不会连接用户输入。

这并不是说过滤仍然不是最佳做法，但就SQL注入和XSS而言，如果您虔诚地使用参数化查询和HTML实体编码，您将受到更多保护。

Answer 4

Jeff Atwood自己描述了StackOverflow.com如何在Stack Overflow博客上清理用户输入（使用非语言特定术语）：http://blog.stackoverflow.com/2008/06/safe-html-and-xss/

然而，正如Justin指出的那样，如果您使用Django模板或类似的东西，那么他们可能会消除您的HTML输出。

SQL注入也不应该是一个问题。所有Python的数据库库（MySQLdb，cx_Oracle等）总是清理你传递的参数。所有Python的对象关系映射器（例如Django模型）都使用这些库，因此您不必担心那里的卫生设施。

Answer 5

我不再进行Web开发，但是当我这样做时，我做了类似的事情：

当不应该进行解析时，我通常只是逃避数据，以便在我存储数据时不干扰数据库，并且从数据库中读取所有内容，以便在显示时不干扰html（cgi.escape （）在python中。

如果有人试图输入html字符或内容，他们实际上希望无论如何都要显示为文本。如果他们没有，那就很难：）

总之，总是逃避可能影响数据当前目标的内容。

当我确实需要一些解析（标记或其他）时，我通常会尝试将该语言保存在与html不相交的集合中，因此我仍然可以将其存储为适当的转义（在验证语法错误之后）并将其解析为html在显示时无需担心用户放在那里干扰你的html数据。

另见Escaping HTML

Answer 6

要清理要存储到数据库的字符串输入（例如客户名称），您需要将其转义或从中明确删除任何引号（'，“）。这有效地防止了经典的SQL注入，它可以如果您从用户传递的字符串组装SQL查询，则会发生这种情况。

例如（如果可以完全删除引号）：

datasetName = datasetName.replace("'","").replace('"',"")

Answer 7

如果您使用的是django这样的框架，框架可以使用标准过滤器轻松完成此操作。事实上，我很确定django会自动执行此操作，除非你告诉它不要。

否则，我建议在接受表单输入之前使用某种正则表达式验证。我不认为你的问题有灵丹妙药，但使用re模块，你应该能够构建你需要的东西。

使用Python消除用户输入

7 个答案: