解决方案（我在Chrome（68.0.3440.84）上运行）

Question

我需要从http请求中获取一个数组缓冲区，向我发送一个base64的答案。对于此请求，我无法使用XMLHttpRequest.responseType="arraybuffer"。

我从此请求获得的回复是通过xhr.responseText读取的。因此它被编码为DOMString。我试图将它作为数组缓冲区恢复。

我尝试使用btoa(mysString)或window.btoa(unescape(encodeURIComponent(str)))从DOMString返回base64，但第一个选项失败了，而第二个选项没有给出相同的base64 。每个base64的前几个字符的示例：

传入：UEsDBBQACAgIACp750oAAAAAAAAAAAAAAAALAAAAX3JlbHMvLnJlbH

第二次处理后：UEsDBBQACAgIAO+/ve+/ve+/vUoAAAAAAAAAAAAAAAALAAAAX3JlbHMvLnJlbH

正如你所看到的，它的一部分是相似的，但有些部分是关闭的。我错过了什么才能做到正确？

Answer 1

我也遇到同样的问题。

解决方案（我在Chrome（68.0.3440.84）上运行）

let url = 'data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg=='

let iso_8859_15_table = { 338: 188, 339: 189, 352: 166, 353: 168, 376: 190, 381: 180, 382: 184, 8364: 164 }

function iso_8859_15_to_uint8array(iso_8859_15_str) {
    let buf = new ArrayBuffer(iso_8859_15_str.length);
    let bufView = new Uint8Array(buf);
    for (let i = 0, strLen = iso_8859_15_str.length; i < strLen; i++) {
        let octet = iso_8859_15_str.charCodeAt(i);
        if (iso_8859_15_table.hasOwnProperty(octet))
            octet = iso_8859_15_table[octet]
        bufView[i] = octet;
        if(octet < 0 || 255 < octet)
            console.error(`invalid data error`)
    }
    return bufView
}

req = new XMLHttpRequest();
req.overrideMimeType('text/plain; charset=ISO-8859-15');
req.onload = () => {
    console.log(`Uint8Array : `)
    var uint8array = iso_8859_15_to_uint8array(req.responseText)
    console.log(uint8array)
}
req.open("get", url);
req.send();

下面是解释我学到的解决方案的方法。

说明

为什么有些零件掉线了？

因为TextDecoder导致数据丢失（您的情况是utf-8）。

例如，让我们谈谈UTF-8

Unicode的可变宽度字符编码。
它具有rules（这将成为问题。）由于诸如可变长度特性和ASCII兼容性等原因。
因此，解码器可以将不符合要求的字符替换为替换字符，例如U + 003F（?,问号）或U + FFFD（�，Unicode替换字符）。
在utf-8情况下，0〜127的值是稳定的，128〜255的值是不稳定的。 128〜255将转换为U + FFFD

除UTF-8外，其他文本解码器是否安全？

不。在大多数情况下，远离rules是不安全的。

UTF-8也无法恢复。（将128〜255设置为U + FFFD）

如果二进制数据和解码结果可以一对一对应，则可以恢复它们。

如何解决？

找到可恢复的文本解码器。
将MIME类型强制为传入数据的可恢复字符集。 xhr_object.overrideMimeType('text/plain; charset=ISO-8859-15')
收到后，使用recover table从字符串中恢复二进制数据。

查找可恢复的文本解码器。

要恢复，请避免出现解码结果重复的情况。

下面的代码是一个简单的示例，因此可能缺少可恢复的文本解码器，因为它只考虑了Uint8Array。

let bufferView = new Uint8Array(256);
for (let i = 0; i < 256; i++)
    bufferView[i] = i;

let recoverable = []
let decoding = ['utf-8', 'ibm866', 'iso-8859-2', 'iso-8859-3', 'iso-8859-4', 'iso-8859-5', 'iso-8859-6', 'iso-8859-7', 'iso-8859-8', 'iso-8859-8i', 'iso-8859-10', 'iso-8859-13', 'iso-8859-14', 'iso-8859-15', 'iso-8859-16', 'koi8-r', 'koi8-u', 'macintosh', 'windows-874', 'windows-1250', 'windows-1251', 'windows-1252', 'windows-1253', 'windows-1254', 'windows-1255', 'windows-1256', 'windows-1257', 'windows-1258', 'x-mac-cyrillic', 'gbk', 'gb18030', 'hz-gb-2312', 'big5', 'euc-jp', 'iso-2022-jp', 'shift-jis', 'euc-kr', 'iso-2022-kr', 'utf-16be', 'utf-16le', 'x-user-defined', 'ISO-2022-CN', 'ISO-2022-CN-ext']
for (let dec of decoding) {
    try {
        let decodedText = new TextDecoder(dec).decode(bufferView);
        let loss = 0
        let recoverTable = {}
        let unrecoverable = 0
        for (let i = 0; i < decodedText.length; i++) {
            let charCode = decodedText.charCodeAt(i)
            if (charCode != i)
                loss++

            if (!recoverTable[charCode])
                recoverTable[charCode] = i
            else
                unrecoverable++
        }
        let tableCnt = 0
        for (let props in recoverTable) {
            tableCnt++
        }
        if (tableCnt == 256 && unrecoverable == 0){
            recoverable.push(dec)
            setTimeout(()=>{
                console.log(`[${dec}] : err(${loss}/${decodedText.length}, ${Math.round(loss / decodedText.length * 100)}%) alive(${tableCnt}) unrecoverable(${unrecoverable})`)
            },10)
        }
        else {
            console.log(`!! [${dec}] : err(${loss}/${decodedText.length}, ${Math.round(loss / decodedText.length * 100)}%) alive(${tableCnt}) unrecoverable(${unrecoverable})`)
        }
    } catch (e) {
        console.log(`!! [${dec}] : not supported.`)
    }
}

setTimeout(()=>{
    console.log(`recoverable Charset : ${recoverable}`)
}, 10)

在我的控制台中，此返回

可恢复的字符集：ibm866，iso-8859-2，iso-8859-4，iso-8859-5，iso-8859-10，iso-8859-13，iso-8859-14，iso-8859-15， iso-8859-16，koi8-r，koi8-u，macintosh，windows-1250，windows-1251，windows-1252，windows-1254，windows-1256，windows-1258，x-mac-cyrillic，x-user-定义

我在此答案的开头使用了iso-8859-15。（它具有最小的表大小。）

附加测试）UTF-8和ISO-8859-15结果的比较

使用ISO-8859-15时，检查U + FFFD是否真的消失了。

function requestAjax(url, charset) {
    let req = new XMLHttpRequest();
    if (charset)
        req.overrideMimeType(`text/plain; charset=${charset}`);
    else
        charset = 'utf-8';
    req.open('get', url);
    req.onload = () => {
        console.log(`==========\n${charset}`)
        console.log(`${req.responseText.split('', 50)}\n==========`);
        console.log('\n')
    }
    req.send();
}

var url = 'data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==';
requestAjax(url, 'ISO-8859-15');
requestAjax(url);

底线

从字符串恢复到二进制数据需要一些额外的工作。
- 找到可恢复的文本编码器/解码器。
- 制作恢复表
- 使用表进行恢复。
- （您可以参考代码的顶部。）
要使用此技巧，请将传入数据的MIME类型强制设置为所需的字符集。

从xhr.responseText

1 个答案:

解决方案（我在Chrome（68.0.3440.84）上运行）

说明

为什么有些零件掉线了？

除UTF-8外，其他文本解码器是否安全？

如何解决？

查找可恢复的文本解码器。

附加测试）UTF-8和ISO-8859-15结果的比较

底线