用于从传入字符串中删除所有垃圾的例程?

时间:2009-02-27 19:26:47

标签: php string sanitization

有时,当用户将数据复制并粘贴到输入表单时,我们会收到如下字符:

  

没有,“对于开头报价和 - 对于最终报价等等......

我使用这个例程来清理Web表单上的大多数输入(我刚才写过它,但我也在寻找改进):

function fnSanitizePost($data) //escapes,strips and trims all members of the post array
{
    if(is_array($data))
    {
    $areturn = array();
    foreach($data as $skey=>$svalue)
    {
      $areturn[$skey] = fnSanitizePost($svalue);
    }
    return $areturn;
  }
  else
    {
      if(!is_numeric($data))
        {
            //with magic quotes on, the input gets escaped twice, which means that we have to strip those slashes. leaving data in your database with slashes in them, is a bad idea
            if(get_magic_quotes_gpc()) //gets current configuration setting of magic quotes
      {
        $data = stripslahes($data);
      }
        $data = pg_escape_string($data); //escapes a string for insertion into the database
        $data = strip_tags($data);  //strips HTML and PHP tags from a string
      }
        $data = trim($data);  //trims whitespace from beginning and end of a string
      return $data;
    }
}

我真的想避免上面提到的字符存储在数据库中,我是否需要在我的清理程序中添加一些正则表达式替换?

谢谢,

-尼古拉斯

4 个答案:

答案 0 :(得分:6)

  

没有,“对于开头报价和 - 对于最终报价

这不是垃圾,这些是合法的“智能引用”字符,已经传递给你编码为UTF-8,但读取错误,为ISO-8859-1。

您可以尝试摆脱它们或尝试使用utf_decode将它们解析为普通的旧版Latin-1,但如果您这样做,您将拥有一个不会让您在ASCII之外键入任何内容的应用程序,这在当天年龄是一个非常差的节目。

更好的是,如果你可以管理它是将所有页面都用作UTF-8,所有表单提交都以UTF-8格式提交,所有数据库内容都以UTF-8格式存储。理想情况下,您的应用程序将在内部使用所有Unicode字符,但不幸的是,PHP作为一种语言没有本机Unicode字符串,因此通常情况下将所有字符串保持为UTF-8,并冒冒险偶然截断UTF-8序列并得到一个 ,除非你想要与mbstring搏斗。

  

$ data = pg_escape_string($ data); //转义字符串以插入数据库

     

$ data = strip_tags($ data); //从字符串中删除HTML和PHP标记

您不希望将此作为进入您的应用程序的消毒措施。保留所有字符串以纯文本格式处理它们,然后pg_escape_string()仅在前往Postgres查询的路上,而htmlspecialchars()仅在前往HTML页面的路上。

否则你会得到奇怪的东西,比如SQL转义出现在直接通过脚本到输出页面的变量上,而且没有人能够使用普通的小于字符。

可以作为消毒措施有用的一件事是删除字符串中的任何控制代码(除了换行符,\ n,您可能想到的那样)。

$data= preg_replace('/[\x00-\x09\x0B-\x19\x7F]/', '', $data);

答案 1 :(得分:3)

您想要查看PHP's utf_decode函数:将使用UTF-8编码的ISO-8859-1字符转换为单字节ISO-8859-1。看来你得到的是UTF字符而数据库无法处理这些字符。

另一种解决方案是在可能的情况下更改数据库的编码。

答案 2 :(得分:1)

终于提出了替换这些字符的例程。它一次解析了一些有问题的字符串,并返回每个字符的八进制值。在这样做的过程中,我了解到智能引号字符会以3个八进制值的形式返回。这是我用来解析字符串的例程:

$str = "string_with_smart_quote_chars";

$ilen = strlen($str);
$sords = NULL;

echo "$str\n\n";

for($i=0; $i<$ilen; $i++)
{
    $sords .= ord(substr($str, $i, 1))."  ";
}

echo "$sords\n\n";

以下是str_replace()调用“fix”字符串:

$str = str_replace(chr(226).chr(128).chr(156), '"', $str); // start quote
$str = str_replace(chr(226).chr(128).chr(157), '"', $str); // end quote
$str = str_replace(chr(226).chr(128).chr(153), "'", $str); // for single quote

我将继续构建一系列这些搜索/替换,我相信随着这些类型字符的使用越来越多,这种搜索/替换将继续增长。

我知道有一些固定例程可以替换这些例程但我在运行我的脚本的Solaris 10平台上没有任何运气。

- 尼古拉斯

答案 3 :(得分:0)

Zend FrameworkZend_FilterZend_Filter_Input有非常好的工具。