从xhr.responseText

时间:2017-07-07 15:01:40

标签: javascript base64

我需要从http请求中获取一个数组缓冲区,向我发送一个base64的答案。 对于此请求,我无法使用XMLHttpRequest.responseType="arraybuffer"

我从此请求获得的回复是通过xhr.responseText读取的。因此它被编码为DOMString。我试图将它作为数组缓冲区恢复。

我尝试使用btoa(mysString)window.btoa(unescape(encodeURIComponent(str)))从DOMString返回base64,但第一个选项失败了,而第二个选项没有给出相同的base64 。每个base64的前几个字符的示例:

传入:UEsDBBQACAgIACp750oAAAAAAAAAAAAAAAALAAAAX3JlbHMvLnJlbH

第二次处理后:UEsDBBQACAgIAO+/ve+/ve+/vUoAAAAAAAAAAAAAAAALAAAAX3JlbHMvLnJlbH

正如你所看到的,它的一部分是相似的,但有些部分是关闭的。 我错过了什么才能做到正确?

1 个答案:

答案 0 :(得分:0)

我也遇到同样的问题。

解决方案(我在Chrome(68.0.3440.84)上运行)

let url = ''

let iso_8859_15_table = { 338: 188, 339: 189, 352: 166, 353: 168, 376: 190, 381: 180, 382: 184, 8364: 164 }

function iso_8859_15_to_uint8array(iso_8859_15_str) {
    let buf = new ArrayBuffer(iso_8859_15_str.length);
    let bufView = new Uint8Array(buf);
    for (let i = 0, strLen = iso_8859_15_str.length; i < strLen; i++) {
        let octet = iso_8859_15_str.charCodeAt(i);
        if (iso_8859_15_table.hasOwnProperty(octet))
            octet = iso_8859_15_table[octet]
        bufView[i] = octet;
        if(octet < 0 || 255 < octet)
            console.error(`invalid data error`)
    }
    return bufView
}

req = new XMLHttpRequest();
req.overrideMimeType('text/plain; charset=ISO-8859-15');
req.onload = () => {
    console.log(`Uint8Array : `)
    var uint8array = iso_8859_15_to_uint8array(req.responseText)
    console.log(uint8array)
}
req.open("get", url);
req.send();


下面是解释我学到的解决方案的方法。

说明

为什么有些零件掉线了?

  

因为TextDecoder导致数据丢失(您的情况是utf-8)。

例如,让我们谈谈UTF-8

  • Unicode的可变宽度字符编码。

  • 它具有rules(这将成为问题。)由于诸如可变长度特性和ASCII兼容性等原因。

  • 因此,解码器可以将不符合要求的字符替换为替换字符,例如U + 003F(?,问号)或U + FFFD(�,Unicode替换字符)。

  • 在utf-8情况下,0〜127的值是稳定的,128〜255的值是不稳定的。 128〜255将转换为U + FFFD

除UTF-8外,其他文本解码器是否安全?

不。在大多数情况下,远离rules是不安全的。

UTF-8也无法恢复。 (将128〜255设置为U + FFFD)

  

如果二进制数据和解码结果可以一对一对应,则可以恢复它们。

如何解决?

  1. 找到可恢复的文本解码器。
  2. 将MIME类型强制为传入数据的可恢复字符集。 xhr_object.overrideMimeType('text/plain; charset=ISO-8859-15')
  3. 收到后,使用recover table从字符串中恢复二进制数据。

查找可恢复的文本解码器。

要恢复,请避免出现解码结果重复的情况。

下面的代码是一个简单的示例,因此可能缺少可恢复的文本解码器,因为它只考虑了Uint8Array。

let bufferView = new Uint8Array(256);
for (let i = 0; i < 256; i++)
    bufferView[i] = i;

let recoverable = []
let decoding = ['utf-8', 'ibm866', 'iso-8859-2', 'iso-8859-3', 'iso-8859-4', 'iso-8859-5', 'iso-8859-6', 'iso-8859-7', 'iso-8859-8', 'iso-8859-8i', 'iso-8859-10', 'iso-8859-13', 'iso-8859-14', 'iso-8859-15', 'iso-8859-16', 'koi8-r', 'koi8-u', 'macintosh', 'windows-874', 'windows-1250', 'windows-1251', 'windows-1252', 'windows-1253', 'windows-1254', 'windows-1255', 'windows-1256', 'windows-1257', 'windows-1258', 'x-mac-cyrillic', 'gbk', 'gb18030', 'hz-gb-2312', 'big5', 'euc-jp', 'iso-2022-jp', 'shift-jis', 'euc-kr', 'iso-2022-kr', 'utf-16be', 'utf-16le', 'x-user-defined', 'ISO-2022-CN', 'ISO-2022-CN-ext']
for (let dec of decoding) {
    try {
        let decodedText = new TextDecoder(dec).decode(bufferView);
        let loss = 0
        let recoverTable = {}
        let unrecoverable = 0
        for (let i = 0; i < decodedText.length; i++) {
            let charCode = decodedText.charCodeAt(i)
            if (charCode != i)
                loss++

            if (!recoverTable[charCode])
                recoverTable[charCode] = i
            else
                unrecoverable++
        }
        let tableCnt = 0
        for (let props in recoverTable) {
            tableCnt++
        }
        if (tableCnt == 256 && unrecoverable == 0){
            recoverable.push(dec)
            setTimeout(()=>{
                console.log(`[${dec}] : err(${loss}/${decodedText.length}, ${Math.round(loss / decodedText.length * 100)}%) alive(${tableCnt}) unrecoverable(${unrecoverable})`)
            },10)
        }
        else {
            console.log(`!! [${dec}] : err(${loss}/${decodedText.length}, ${Math.round(loss / decodedText.length * 100)}%) alive(${tableCnt}) unrecoverable(${unrecoverable})`)
        }
    } catch (e) {
        console.log(`!! [${dec}] : not supported.`)
    }
}

setTimeout(()=>{
    console.log(`recoverable Charset : ${recoverable}`)
}, 10)


在我的控制台中,此返回

  

可恢复的字符集:ibm866,iso-8859-2,iso-8859-4,iso-8859-5,iso-8859-10,iso-8859-13,iso-8859-14,iso-8859-15, iso-8859-16,koi8-r,koi8-u,macintosh,windows-1250,windows-1251,windows-1252,windows-1254,windows-1256,windows-1258,x-mac-cyrillic,x-user-定义

我在此答案的开头使用了iso-8859-15。 (它具有最小的表大小。)


附加测试)UTF-8和ISO-8859-15结果的比较

使用ISO-8859-15时,检查U + FFFD是否真的消失了。

function requestAjax(url, charset) {
    let req = new XMLHttpRequest();
    if (charset)
        req.overrideMimeType(`text/plain; charset=${charset}`);
    else
        charset = 'utf-8';
    req.open('get', url);
    req.onload = () => {
        console.log(`==========\n${charset}`)
        console.log(`${req.responseText.split('', 50)}\n==========`);
        console.log('\n')
    }
    req.send();
}

var url = '';
requestAjax(url, 'ISO-8859-15');
requestAjax(url);

底线

  • 从字符串恢复到二进制数据需要一些额外的工作。
    • 找到可恢复的文本编码器/解码器。
    • 制作恢复表
    • 使用表进行恢复。
    • (您可以参考代码的顶部。)
  • 要使用此技巧,请将传入数据的MIME类型强制设置为所需的字符集。