Swift 4 base64字符串到数据不起作用,因为字符串包含“不完整”表情符号

时间:2018-09-26 18:55:39

标签: swift character-encoding base64 iso

我来自这篇帖子Swift 4 JSON String with unknown UTF8 "�" character is not convertible to Data/ Dictionary,但与此同时,我能够将问题隔离为10个字符的字符串。

简短介绍:一个用户的应用未显示任何内容。用TextWrangler用纯文本格式查看他的6kb数据,我发现了2个红色问号

enter image description here

我试图在问号周围剪切一些以base64编码的数据,并将其转换为无效的数据。一旦我从块中删除了红色问号中的位,它似乎又可以工作了。请看一下我下面的Playground示例:

//those do NOT work
let toEndBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9AF0A" // *USA* ' <"}]//
let toMidBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9"     // *USA* ' <"}//
let toCarrot =     "ACAAKgBVAFMAQQAqACAnlgAg2DwA"         // *USA* ' <//
let toSpace =      "ACAAKgBVAFMAQQAqACAnlgAg"             // *USA* ' //

//but this one WORKS
let toApostrophe = "ACAAKgBVAFMAQQAqACAn"                 // *USA* '//
//(basically the last one is without the space before the carrot, I've added the slashes after it to emphasize that)
//clear strings taken from https://www.base64decode.org/ using the UTF-8 setting WITHOUT "Live mode".

if let textData = Data(base64Encoded: toApostrophe) {
    print("Data created")   //works for all of them
    print(textData)
    if let decodedString = String(data: textData, encoding: .utf8) {
        print("WORKED!!!")  //only happens for the toApostrophe
        print(decodedString)
    } else {
        print("DID NOT WORK")
    }
}

因此,只要包含lgAg,它基本上就会失败。用U29t之类的东西代替确实可以使小字符串再次起作用,但是我无法在生产代码中做到这一点,因为我确信我的例子并不是这个问题的唯一发生。我不在乎会导致这种情况的原始字符/符号/表情符号会发生什么,如果有一种方法可以“忽略”它们,那将比已经有用的多了!

这里是发生这种情况的另一个示例:

//OTHER SYMBOL WITH SAME BEHAVIOR
//not working
let secondFromSpace =  "ACDYPAAiACwA"       // <",//

//WORKING
let secondFromCarrot = "PAAiACwA"           //<",//

这里是其栖息地的原始文字,一个带有表情符号的信使消息说“ USA”,因此在我的示例文本中出现“ USA”,我怀疑是表情符号使它破裂:

enter image description here

如果有人能告诉我如何“清理” base64字符串,以便再次将其转换为数据,我将不胜感激。这也可能是由于某些表情符号进行了一些怪异的编码所致,但在大多数情况下,该应用会很好地接收和显示带有表情符号的内容。


我终于弄清楚了为什么会这样。这不是解决我问题的快速方法,但现在至少有一定道理。对于新内容的预览,我剪切了字符串以匹配浏览器的视口。这个特别不幸的用户在显示屏边框的边缘上有美国国旗表情符号。我永远不会想到由多个字母和JavaScript substring()组成的表情符号。看看图片,这说明了角色来自何处。

对于在Swift中如何避免/忽略/捕捉问题,我还是很感激的,但是对于遇到这个问题的每个可怜的人,我希望您会偶然发现这个问题。

enter image description here

1 个答案:

答案 0 :(得分:2)

(其中有些没有评论,但是试图将其组合在一起并描述解决方案。)

首先,您的字符串不是UTF-8。它们是UTF-16或格式不正确的UTF-16。有时UTF-16恰好可以解释为UTF-8,但是当它是UTF-8时,字符串中会散布NULL字符。在您的“工作”示例中,它实际上并没有工作。

let toApostrophe = "ACAAKgBVAFMAQQAqACAn"                 // *USA* '//
if let textData = Data(base64Encoded: toApostrophe) {
    if let decodedString = String(data: textData, encoding: .utf8) {
        print(decodedString)
        print(decodedString.count)
        print(decodedString.map { $0.unicodeScalars.map { $0.value } } )
    } else {
        print("DID NOT DECODE UTF8")
    }
} else {
    print("DID NOT DECODE BASE64")
}

打印:

 *USA* '
15
[[0], [32], [0], [42], [0], [85], [0], [83], [0], [65], [0], [42], [0], [32], [39]]

请注意,字符串的长度为15个字符,而不是您可能期望的8个字符。这是因为它在大多数字符之间都包含一个额外的不可见NULL(0)。

但是,

toEndBracket并不是合法的UTF-8。这是它的字节:

[“ 00”,“ 20”,“ 00”,“ 2a”,“ 00”,“ 55”,“ 00”,“ 53”,“ 00”,“ 41”,“ 00”,“ 2a” “,” 00“,” 20“,” 27“,” 96“,” 00“,” 20“,” d8“,” 3c“,” 00“,” 22“,” 00“,” 7d“, “ 00”,“ 5d”,“ 00”]

直到达到0xd8,这是可以的。从位110开始,这表明它是两个字节序列的开始。但是下一个字节是0x3c,它不是多字节序列中的有效第二个字节(它应以10开头,但应以00开头)。因此,我们不能将其解码为UTF-8。即使使用decodeCString(_:as:repairingInvalidCodeUnits)也无法解码此字符串,因为它已嵌入了NULL。您必须至少使用正确的编码对其进行解码。

但是,让我们这样做。解码为UTF-16。至少那是接近的,即使它是稍微无效的UTF-16。

let toEndBracket16 = String(data: toEndBracketData, encoding: .utf16)
// " *USA* ➖ �"}]"

现在我们至少可以处理这个问题。不过,它是无效的JSON。因此,我们可以通过过滤将其剥离:

let legalJSON = String(toEndBracket16.filter { $0 != "\u{FFFD}" })
// " *USA* ➖ "}]"

我真的不推荐这种方法。它非常脆弱,并且基于损坏的输入。修正输入。但是,在您试图解析损坏的输入的世界中,这些就是工具。