TextDecoder.prototype.ignoreBOM无法正常工作

时间:2020-06-11 22:29:31

标签: javascript node.js fetch-api

我正在使用访存api提​​取csv数据并尝试创建csv文件。

但是我看到前两个字符是ÿþ,它们是BOM字符。

但是,我在解码集ignoreBOM: true时无法正常工作,并且在CSV开头总是看到ÿþ

下面是我的代码

    const fetchData = await newPage.evaluate(async () => {
      let url = $('.csvLink').attr('href');
      console.log(`in here is the ${url}`);
      const stream = await fetch(url);
      let reader = stream.body.getReader();
      let receivedLength = 0;
      while(true) {
        const {done, value} = await reader.read();
        if (done) {
          break;
        }
        receivedLength += value.length;
        let v = new TextDecoder("ISO-8859-1", {fatal: false, ignoreBOM: false}).decode(value, {stream: true});
        await window.writeToStream(v, false);
      }

任何帮助解决此问题的方法都将非常有用。谢谢。

1 个答案:

答案 0 :(得分:1)

ignoreBOM only applies用于UTF-8 UTF-16BE和UTF-16LE编码。

如果文件的开头有物料清单,则它可能不是编码为CP-1252,而是编码为UTF,如果该物料清单在CP-1252中被读为ÿþ,那么甚至可能是UTF -16LE:

const littleEnd_BOM = new Uint8Array( [ 0xFF, 0xFE ] );
const as_CP1252 = new TextDecoder( 'iso-8859-1' ).decode( littleEnd_BOM );

console.log( as_CP1252 );

因此,代码中的第一件事是您不想将TextDecoder初始化为CP-1252,而是初始化为UTF-16LE。

现在,对于您将ignoreBOM设置为哪个值有些困惑,在您编写时将其设置为true,而在代码段中将其设置为false (默认)。

如果您希望BOM表保留在输出中,则将其设置为true。解析器将忽略该BOM标记,这意味着它将视为常规字符序列。

另一方面,如果您希望将其从输出中移除,然后将其保留为false,则解析器将对其进行特殊处理,并将其从输出中移除。< / p>

请注意,即使BOM在此处,也可能无法从DOMString打印出来:

const UTF16LE_text = new Uint16Array(
      [ ..."\ufeffhello" ].map( (char) => char.charCodeAt(0) )
  );
// to check we really wrote a LE-BOM "FFFE"
const BOM = [ ...new Uint8Array( UTF16LE_text.buffer ).slice( 0, 2 ) ]
  .map( (v) => v.toString( 16 ) ).join('');
console.log( 'BOM:', BOM );

const ignoring_decoder = new TextDecoder( 'UTF-16LE', { ignoreBOM: true } );
const ignored = ignoring_decoder.decode( UTF16LE_text );
console.log( 'ignoreBOM:true  - text:', ignored );
console.log( 'ignoreBOM:true  - char at 0:', ignored.charCodeAt( 0 ) );

const removing_decoder = new TextDecoder( 'UTF-16LE' );
const removed = removing_decoder.decode( UTF16LE_text );
console.log( 'ignoreBOM:false - text:', removed );
console.log( 'ignoreBOM:false - char at 0:', removed.charCodeAt( 0 ) );


但是您可能会遇到的另一个问题是,您正在读取提取的文本块,即随机大小的数据块。
无法以这种方式处理文本,您需要从定义明确的字节位置解析文本,以便能够正确解析文本。

幸运的是,stream方法有一个TextDecoder.decode()选项。使用它,解码器应该能够正确读取流,但是要使此选项起作用,您需要将TextDecoder存储在while循环之外,以便将先前的缓冲区保留在内存中。

const fetchData = await newPage.evaluate(async () => {
  let url = $('.csvLink').attr('href');
  const stream = await fetch(url);
  let reader = stream.body.getReader();
  let receivedLength = 0;
  // declare the decoder outside of the loop
  const decoder = new TextDecoder("UTF-16LE");
  while(true) {
    const {done, value} = await reader.read();
    receivedLength += value.length;
    // always use the same decoder
    const v = decoder.decode(value, {stream: true});
    await window.writeToStream(v, false);
    if (done) { 
      break;
    }
  }
}