RegEx解析或验证Base64数据

时间:2009-01-23 23:36:32

标签: regex base64 standards-compliance rfc

是否可以使用RegEx来验证或清理Base64数据?这是一个简单的问题,但推动这个问题的因素是让它变得困难的原因。

我有一个Base64解码器,不能完全依赖输入数据来遵循RFC规范。所以,我面临的问题可能是Base64数据可能没有被分解成78个问题(我认为它是78,我必须仔细检查RFC,所以如果确切的数字是错误的话,请不要告诉我)线条,或线条可能不以CRLF结尾;因为它可能只有一个CR或LF,或者两者都没有。

所以,我有一段时间解析Base64数据格式。因此,以下示例变得不可能可靠地解码。为简洁起见,我只会显示部分MIME标头。

Content-Transfer-Encoding: base64

VGhpcyBpcyBzaW1wbGUgQVNDSUkgQmFzZTY0IGZvciBTdGFja092ZXJmbG93IGV4YW1wbGUu

好的,所以解析没问题,这正是我们期望的结果。在99%的情况下,使用任何代码来至少验证缓冲区中的每个字符都是有效的base64字符,完美地运行。但是,下一个例子会给混合物带来麻烦。

Content-Transfer-Encoding: base64

http://www.stackoverflow.com
VGhpcyBpcyBzaW1wbGUgQVNDSUkgQmFzZTY0IGZvciBTdGFja092ZXJmbG93IGV4YW1wbGUu

这是我在一些病毒和其他东西中看到的Base64编码版本,试图利用一些邮件读者不惜一切代价解析mime,而不是严格按照本书,或者说RFC;如果你愿意的话。

我的Base64解码器将第二个示例解码为以下数据流。请记住,原始流是所有ASCII数据!

[0x]86DB69FFFC30C2CB5A724A2F7AB7E5A307289951A1A5CC81A5CC81CDA5B5C1B19481054D0D
2524810985CD94D8D08199BDC8814DD1858DAD3DD995C999B1BDDC8195E1B585C1B194B8

任何人都有一个很好的方法可以立即解决这两个问题?我不确定它是否可能,除了对应用了不同规则的数据进行两次转换,并比较结果之外。但是,如果采用这种方法,您信任哪个输出?似乎ASCII启发式算法是关于最佳解决方案,但是代码,执行时间和复杂性会增加多少像病毒扫描程序一样复杂的东西,这个代码实际上涉及到什么?你会如何训练启发式引擎来了解什么是可接受的Base64,什么不是?


更新

对于这个问题继续得到的观看次数,我已经决定发布我在C#应用程序中使用的简单RegEx 3年了,有数十万个交易。老实说,我最喜欢Gumbo给出的答案,这就是我选择答案的原因。但是对于任何使用C#的人,并且寻找一种非常快速的方法来至少检测字符串或byte []是否包含有效的Base64数据,我发现以下内容对我来说非常有用。

[^-A-Za-z0-9+/=]|=[^=]|={3,}$

是的,这仅适用于Base64数据的 STRING ,而不是格式正确的RFC1341消息。因此,如果您正在处理此类数据,请在尝试使用上述RegEx之前将其考虑在内。如果您正在处理Base16,Base32,Radix甚至Base64用于其他目的(URL,文件名,XML编码等),那么高度建议您阅读RFC4648 Gumbo在他的回答中提到,因为在尝试使用此问题/答案集中的建议之前,您需要充分了解实现中使用的字符集和终结符。

7 个答案:

答案 0 :(得分:120)

来自RFC 4648

  

在许多情况下,数据的基本编码用于在环境中存储或传输数据,这些环境可能由于传统原因而限制为US-ASCII数据。

因此,如果数据应被视为危险,则取决于编码数据的使用目的。

但是,如果您只是寻找匹配Base64编码字的正则表达式,则可以使用以下内容:

^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/]{2}==|[A-Za-z0-9+/]{3}=)?$

答案 1 :(得分:26)

^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/]{2}==|[A-Za-z0-9+/]{3}=)?$

这个很好,但会匹配一个空字符串

这个与空字符串不匹配:

^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/]{2}==|[A-Za-z0-9+/]{3}=|[A-Za-z0-9+/]{4})$

答案 2 :(得分:4)

”和“”都不会显示在有效的Base64中,因此我认为您可以毫不含糊地丢弃http://www.stackoverflow.com行。在Perl中,比如说像

my $sanitized_str = join q{}, grep {!/[^A-Za-z0-9+\/=]/} split /\n/, $str;

say decode_base64($sanitized_str);

可能就是你想要的。它产生

这是StackOverflow exmaple的简单ASCII Base64。

答案 3 :(得分:2)

我能找到的最好的正则表达式就在这里 https://www.npmjs.com/package/base64-regex

在当前版本中看起来像:

module.exports = function (opts) {
  opts = opts || {};
  var regex = '(?:[A-Za-z0-9+\/]{4}\\n?)*(?:[A-Za-z0-9+\/]{2}==|[A-Za-z0-9+\/]{3}=)';

  return opts.exact ? new RegExp('(?:^' + regex + '$)') :
                    new RegExp('(?:^|\\s)' + regex, 'g');
};

答案 4 :(得分:2)

要验证 base64映像,我们可以使用此正则表达式

/ ^ data:image /(?: gif | png | jpeg | bmp | webp)(?:; charset = utf-8)?; base64,(?:[A-Za-z0-9] | [ + /])+ = {0,2}

  private validBase64Image(base64Image: string): boolean {
    const regex = /^data:image\/(?:gif|png|jpeg|bmp|webp)(?:;charset=utf-8)?;base64,(?:[A-Za-z0-9]|[+/])+={0,2}/;
    return base64Image && regex.test(base64Image);
  }

答案 5 :(得分:0)

这是一个替代的正则表达式:

^(?=(.{4})*$)[A-Za-z0-9+/]*={0,2}$

满足以下条件:

  • 字符串长度必须是四的倍数-(?=^(.{4})*$)
  • 内容必须为字母数字字符或+或/-[A-Za-z0-9+/]*
  • 结尾处最多可以有两个填充(=)字符-={0,2}
  • 它接受空字符串

答案 6 :(得分:0)

到目前为止,给出的答案无法检查Base64字符串是否将所有填充位都设置为0,因为它必须是Base64的规范表示形式(这在某些环境中很重要,请参见https://tools.ietf.org/html/rfc4648#section-3.5),并且因此,它们允许别名是同一二进制字符串的不同编码。在某些应用程序中,这可能是一个安全问题。

这里是正则表达式,它验证给定的字符串不仅是有效的base64,而且是二进制数据的规范化base64字符串:

^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/][AQgw]==|[A-Za-z0-9+/]{2}[AEIMQUYcgkosw048]=)?$

引用的RFC认为空字符串有效(请参见https://tools.ietf.org/html/rfc4648#section-10),因此上述正则表达式也是如此。

base64url的等效正则表达式(再次参考上述RFC)为:

^(?:[A-Za-z0-9_-]{4})*(?:[A-Za-z0-9_-][AQgw]==|[A-Za-z0-9_-]{2}[AEIMQUYcgkosw048]=)?$