洗涤受污染的数据

时间:2011-08-31 17:48:24

标签: perl taint character-properties

当我检查污染数据并检查是否有任何不良字符时,是否有unicode-properties会过滤坏字符?

3 个答案:

答案 0 :(得分:4)

User-Defined Character Properties in perlunicode

package Characters::Sid_com;

sub InBad {
return <<"BAD";
0000\t10FFFF
BAD
}

sub InEvil {
return <<"EVIL";
0488
0489
EVIL
}

sub InStupid {
return <<"STUPID";
E630\tE64F
F8D0\tF8FF
STUPID
}

⋮

die 'No.' if $tring =~ /
    (?: \p{Characters::Sid_com::InBad}
      | \p{Characters::Sid_com::InEvil}
      | \p{Characters::Sid_com::InStupid}
    )
/x;

答案 1 :(得分:3)

我认为“不”是一个轻描淡写的答案,但你有它。不,Unicode没有“坏”或“好”字符的概念(更不用说“丑陋”字符了。)

答案 2 :(得分:2)

XML(以及XHTML)只能包含这些字符:

\x09 \x0A \x0D
\x{0020}-\x{D7FF}
\x{E000}-\x{FFFD}
\x{10000}-\x{10FFFF}

在上述内容中,应避免以下情况:

\x7F-\x84
\x86-\x9F
\x{FDD0}-\x{FDEF}
\x{1FFFE}-\x{1FFFF}
\x{2FFFE}-\x{2FFFF}
\x{3FFFE}-\x{3FFFF}
\x{4FFFE}-\x{4FFFF}
\x{5FFFE}-\x{5FFFF}
\x{6FFFE}-\x{6FFFF}
\x{7FFFE}-\x{7FFFF}
\x{8FFFE}-\x{8FFFF}
\x{9FFFE}-\x{9FFFF}
\x{AFFFE}-\x{AFFFF}
\x{BFFFE}-\x{BFFFF}
\x{CFFFE}-\x{CFFFF}
\x{DFFFE}-\x{DFFFF}
\x{EFFFE}-\x{EFFFF}
\x{FFFFE}-\x{FFFFF}
\x{10FFFE}-\x{10FFFF}

如果要生成XHTML,则需要转义以下内容:

  • &&amp;
  • <&lt;
  • >&gt;(可选)
  • "&quot;(可选除"分隔的属性值外)
  • '&apos;(可选除'分隔的属性值外)

HTML应该具有相同的,如果不是更宽松的要求,所以如果坚持这一点,你应该是安全的。