如何使用Javascript解析CSV字符串,其中包含数据中的逗号?

时间:2011-12-13 17:07:37

标签: javascript regex split

我有以下类型的字符串

var string = "'string, duppi, du', 23, lala"

我想将字符串拆分为每个逗号上的数组,但只有单引号外的逗号。

我无法找出合适的正则表达式......

string.split(/,/)

会给我

["'string", " duppi", " du'", " 23", " lala"]

但结果应该是:

["string, duppi, du", "23", "lala"]

是否有任何跨浏览器解决方案?

19 个答案:

答案 0 :(得分:184)

声明

2014-12-01更新:以下答案仅适用于一种非常特定的CSV格式。正如DG在评论中正确指出的那样,此解决方案不符合RFC 4180的CSV定义,也不适合MS Excel格式。此解决方案简单地演示了如何解析包含混合字符串类型的一个(非标准)CSV输入行,其中字符串可能包含转义引号和逗号。

非标准CSV解决方案

正如austincheney正确指出的那样,如果你想正确处理可能包含转义字符的带引号的字符串,你真的需要从头到尾解析字符串。此外,OP没有明确定义“CSV字符串”究竟是什么。首先,我们必须定义什么构成有效的CSV字符串及其各个值。

鉴于:“CSV字符串”定义

出于本讨论的目的,“CSV字符串”由零个或多个值组成,其中多个值由逗号分隔。每个值可能包括:

  1. 双引号字符串。 (可能包含未转义的单引号。)
  2. 单引号字符串。 (可能包含未转义的双引号。)
  3. 非引用字符串。 (不得包含引号,逗号或反斜杠。)
  4. 空值。 (所有空白值都被视为空。)
  5. 规则/说明:

    • 引用的值可能包含逗号。
    • 引用的值可能包含转义任何内容,例如'that\'s cool'
    • 必须引用包含引号,逗号或反斜杠的值。
    • 必须引用包含前导或尾随空格的值。
    • 以单引号值从所有\'中删除反斜杠。
    • 以双引号值从所有\"中删除反斜杠。
    • 修剪任何前导和尾随空格的非引用字符串。
    • 逗号分隔符可能具有相邻的空格(将被忽略)。

    查找

    一个JavaScript函数,它将有效的CSV字符串(如上所定义)转换为字符串值数组。

    解决方案:

    此解决方案使用的正则表达式很复杂。并且(恕我直言)所有非平凡正则表达式应该以自由间隔模式呈现,并带有大量注释和缩进。不幸的是,JavaScript不允许自由间隔模式。因此,此解决方案实现的正则表达式首先以本机正则表达式语法呈现(使用Python的方便表达:r'''...'''原始多行字符串语法)。

    这里首先是一个正则表达式,它验证CVS字符串是否满足上述要求:

    正则表达式验证“CSV字符串”:

    re_valid = r"""
    # Validate a CSV string having single, double or un-quoted values.
    ^                                   # Anchor to start of string.
    \s*                                 # Allow whitespace before value.
    (?:                                 # Group for value alternatives.
      '[^'\\]*(?:\\[\S\s][^'\\]*)*'     # Either Single quoted string,
    | "[^"\\]*(?:\\[\S\s][^"\\]*)*"     # or Double quoted string,
    | [^,'"\s\\]*(?:\s+[^,'"\s\\]+)*    # or Non-comma, non-quote stuff.
    )                                   # End group of value alternatives.
    \s*                                 # Allow whitespace after value.
    (?:                                 # Zero or more additional values
      ,                                 # Values separated by a comma.
      \s*                               # Allow whitespace before value.
      (?:                               # Group for value alternatives.
        '[^'\\]*(?:\\[\S\s][^'\\]*)*'   # Either Single quoted string,
      | "[^"\\]*(?:\\[\S\s][^"\\]*)*"   # or Double quoted string,
      | [^,'"\s\\]*(?:\s+[^,'"\s\\]+)*  # or Non-comma, non-quote stuff.
      )                                 # End group of value alternatives.
      \s*                               # Allow whitespace after value.
    )*                                  # Zero or more additional values
    $                                   # Anchor to end of string.
    """
    

    如果字符串与上述正则表达式匹配,则该字符串是有效的CSV字符串(根据前面所述的规则),并且可以使用以下正则表达式进行解析。然后使用以下正则表达式匹配CSV字符串中的一个值。重复应用它直到找不到更多匹配(并且所有值都已被解析)。

    正则表达式从有效的CSV字符串中解析一个值:

    re_value = r"""
    # Match one value in valid CSV string.
    (?!\s*$)                            # Don't match empty last value.
    \s*                                 # Strip whitespace before value.
    (?:                                 # Group for value alternatives.
      '([^'\\]*(?:\\[\S\s][^'\\]*)*)'   # Either $1: Single quoted string,
    | "([^"\\]*(?:\\[\S\s][^"\\]*)*)"   # or $2: Double quoted string,
    | ([^,'"\s\\]*(?:\s+[^,'"\s\\]+)*)  # or $3: Non-comma, non-quote stuff.
    )                                   # End group of value alternatives.
    \s*                                 # Strip whitespace after value.
    (?:,|$)                             # Field ends on comma or EOS.
    """
    

    请注意,此正则表达式不匹配有一个特殊情况值 - 该值为空时的最后一个值。这个特殊的“空的最后一个值”案例由后面的js函数测试和处理。

    解析CSV字符串的JavaScript函数:

    // Return array of string values, or NULL if CSV string not well formed.
    function CSVtoArray(text) {
        var re_valid = /^\s*(?:'[^'\\]*(?:\\[\S\s][^'\\]*)*'|"[^"\\]*(?:\\[\S\s][^"\\]*)*"|[^,'"\s\\]*(?:\s+[^,'"\s\\]+)*)\s*(?:,\s*(?:'[^'\\]*(?:\\[\S\s][^'\\]*)*'|"[^"\\]*(?:\\[\S\s][^"\\]*)*"|[^,'"\s\\]*(?:\s+[^,'"\s\\]+)*)\s*)*$/;
        var re_value = /(?!\s*$)\s*(?:'([^'\\]*(?:\\[\S\s][^'\\]*)*)'|"([^"\\]*(?:\\[\S\s][^"\\]*)*)"|([^,'"\s\\]*(?:\s+[^,'"\s\\]+)*))\s*(?:,|$)/g;
        // Return NULL if input string is not well formed CSV string.
        if (!re_valid.test(text)) return null;
        var a = [];                     // Initialize array to receive values.
        text.replace(re_value, // "Walk" the string using replace with callback.
            function(m0, m1, m2, m3) {
                // Remove backslash from \' in single quoted values.
                if      (m1 !== undefined) a.push(m1.replace(/\\'/g, "'"));
                // Remove backslash from \" in double quoted values.
                else if (m2 !== undefined) a.push(m2.replace(/\\"/g, '"'));
                else if (m3 !== undefined) a.push(m3);
                return ''; // Return empty string.
            });
        // Handle special case of empty last value.
        if (/,\s*$/.test(text)) a.push('');
        return a;
    };
    

    输入和输出示例:

    在以下示例中,花括号用于分隔{result strings}。 (这有助于可视化前导/尾随空格和零长度字符串。)

    // Test 1: Test string from original question.
    var test = "'string, duppi, du', 23, lala";
    var a = CSVtoArray(test);
    /* Array hes 3 elements:
        a[0] = {string, duppi, du}
        a[1] = {23}
        a[2] = {lala} */
    
    // Test 2: Empty CSV string.
    var test = "";
    var a = CSVtoArray(test);
    /* Array hes 0 elements: */
    
    // Test 3: CSV string with two empty values.
    var test = ",";
    var a = CSVtoArray(test);
    /* Array hes 2 elements:
        a[0] = {}
        a[1] = {} */
    
    // Test 4: Double quoted CSV string having single quoted values.
    var test = "'one','two with escaped \' single quote', 'three, with, commas'";
    var a = CSVtoArray(test);
    /* Array hes 3 elements:
        a[0] = {one}
        a[1] = {two with escaped ' single quote}
        a[2] = {three, with, commas} */
    
    // Test 5: Single quoted CSV string having double quoted values.
    var test = '"one","two with escaped \" double quote", "three, with, commas"';
    var a = CSVtoArray(test);
    /* Array hes 3 elements:
        a[0] = {one}
        a[1] = {two with escaped " double quote}
        a[2] = {three, with, commas} */
    
    // Test 6: CSV string with whitespace in and around empty and non-empty values.
    var test = "   one  ,  'two'  ,  , ' four' ,, 'six ', ' seven ' ,  ";
    var a = CSVtoArray(test);
    /* Array hes 8 elements:
        a[0] = {one}
        a[1] = {two}
        a[2] = {}
        a[3] = { four}
        a[4] = {}
        a[5] = {six }
        a[6] = { seven }
        a[7] = {} */
    

    附加说明:

    此解决方案要求CSV字符串为“有效”。例如,未加引号的值可能不包含反斜杠或引号,例如以下CSV字符串无效:

    var invalid1 = "one, that's me!, escaped \, comma"
    

    这不是真正的限制,因为任何子字符串都可以表示为单引号或双引号。另请注意,此解决方案仅代表一种可能的定义:“逗号分隔值”。

    修改时间:2014-05-19:已添加免责声明。 编辑:2014-12-01:将免责声明移至顶部。

答案 1 :(得分:30)

RFC 4180解决方案

这不能解决问题中的字符串,因为它的格式不符合RFC 4180;可接受的编码是双引号的双引号。以下解决方案可正确使用谷歌电子表格中的CSV文件d / l。

更新时间(3/2017)

解析单行是错误的。根据RFC 4180字段可能包含CRLF,这将导致任何行读取器中断CSV文件。这是一个解析CSV字符串的更新版本:

'use strict';

function csvToArray(text) {
    let p = '', row = [''], ret = [row], i = 0, r = 0, s = !0, l;
    for (l of text) {
        if ('"' === l) {
            if (s && l === p) row[i] += l;
            s = !s;
        } else if (',' === l && s) l = row[++i] = '';
        else if ('\n' === l && s) {
            if ('\r' === p) row[i] = row[i].slice(0, -1);
            row = ret[++r] = [l = '']; i = 0;
        } else row[i] += l;
        p = l;
    }
    return ret;
};

let test = '"one","two with escaped """" double quotes""","three, with, commas",four with no quotes,"five with CRLF\r\n"\r\n"2nd line one","two with escaped """" double quotes""","three, with, commas",four with no quotes,"five with CRLF\r\n"';
console.log(csvToArray(test));

OLD ANSWER

(单线解决方案)

function CSVtoArray(text) {
    let ret = [''], i = 0, p = '', s = true;
    for (let l in text) {
        l = text[l];
        if ('"' === l) {
            s = !s;
            if ('"' === p) {
                ret[i] += '"';
                l = '-';
            } else if ('' === p)
                l = '-';
        } else if (s && ',' === l)
            l = ret[++i] = '';
        else
            ret[i] += l;
        p = l;
    }
    return ret;
}
let test = '"one","two with escaped """" double quotes""","three, with, commas",four with no quotes,five for fun';
console.log(CSVtoArray(test));

为了好玩,以下是从阵列创建CSV的方法:

function arrayToCSV(row) {
    for (let i in row) {
        row[i] = row[i].replace(/"/g, '""');
    }
    return '"' + row.join('","') + '"';
}

let row = [
  "one",
  "two with escaped \" double quote",
  "three, with, commas",
  "four with no quotes (now has)",
  "five for fun"
];
let text = arrayToCSV(row);
console.log(text);

答案 2 :(得分:6)

PEG(.js)语法,用于处理http://en.wikipedia.org/wiki/Comma-separated_values处的RFC 4180示例:

start
  = [\n\r]* first:line rest:([\n\r]+ data:line { return data; })* [\n\r]* { rest.unshift(first); return rest; }

line
  = first:field rest:("," text:field { return text; })*
    & { return !!first || rest.length; } // ignore blank lines
    { rest.unshift(first); return rest; }

field
  = '"' text:char* '"' { return text.join(''); }
  / text:[^\n\r,]* { return text.join(''); }

char
  = '"' '"' { return '"'; }
  / [^"]

http://jsfiddle.net/knvzk/10https://pegjs.org/online进行测试。

https://gist.github.com/3362830下载生成的解析器。

答案 3 :(得分:3)

我有一个非常具体的用例,我想将Google表格中的单元格复制到我的网络应用程序中。单元格可以包含双引号和换行符。使用复制和粘贴,单元格由制表符分隔,带有奇数数据的单元格是双引号。我尝试了这个主要解决方案,链接文章使用regexp,Jquery-CSV和CSVToArray。 http://papaparse.com/是唯一一个开箱即用的人。使用默认的自动检测选项,Google表格可以无缝复制和粘贴。

答案 4 :(得分:3)

我喜欢FakeRainBrigand的答案,但它包含一些问题:它无法处理引号和逗号之间的空格,并且不支持2个连续的逗号。我尝试编辑他的答案,但我的编辑遭到了显然不理解我的代码的审稿人的拒绝。这是我的FakeRainBrigand代码版本。 还有一个小提琴:http://jsfiddle.net/xTezm/46/

String.prototype.splitCSV = function() {
        var matches = this.match(/(\s*"[^"]+"\s*|\s*[^,]+|,)(?=,|$)/g);
        for (var n = 0; n < matches.length; ++n) {
            matches[n] = matches[n].trim();
            if (matches[n] == ',') matches[n] = '';
        }
        if (this[0] == ',') matches.unshift("");
        return matches;
}

var string = ',"string, duppi, du" , 23 ,,, "string, duppi, du",dup,"", , lala';
var parsed = string.splitCSV();
alert(parsed.join('|'));

答案 5 :(得分:2)

如果您的引号分隔符可以是双引号,那么这是JavaScript Code to Parse CSV Data的副本。

您可以先将所有单引号翻译为双引号:

string = string.replace( /'/g, '"' );

...或者您可以编辑该问题中的正则表达式来识别单引号而不是双引号:

// Quoted fields.
"(?:'([^']*(?:''[^']*)*)'|" +

但是,这假设某些标记在您的问题中不明确。请根据我对您问题的评论,澄清标记的各种可能性。

答案 6 :(得分:1)

我的回答假设您的输入是来自网络资源的代码/内容的反映,其中单引号和双引号字符完全可互换,只要它们作为非转义匹配集出现。

你不能使用正则表达式。实际上你必须编写一个微解析器来分析你想要分割的字符串。为了这个答案,我会将字符串的引用部分称为子字符串。你需要专门走过这个字符串。考虑以下情况:

var a = "some sample string with \"double quotes\" and 'single quotes' and some craziness like this: \\\" or \\'",
    b = "sample of code from JavaScript with a regex containing a comma /\,/ that should probably be ignored.";

在这种情况下,通过简单地分析字符模式的输入,您完全不知道子字符串的开始或结束位置。相反,你必须编写逻辑来决定引用字符是否使用引号字符,本身是否加引号,以及引号字符是否跟随转义。

我不打算为你编写那么复杂的代码,但你可以看看我最近编写的具有你需要的模式的东西。此代码与逗号无关,但在其他方面是一个有效的微解析器,您可以在编写自己的代码时遵循。查看以下应用程序的asifix函数:

https://github.com/austincheney/Pretty-Diff/blob/master/fulljsmin.js

答案 7 :(得分:1)

人们似乎反对RegEx。为什么呢?

(\s*'[^']+'|\s*[^,]+)(?=,|$)

这是代码。我也做了fiddle

String.prototype.splitCSV = function(sep) {
  var regex = /(\s*'[^']+'|\s*[^,]+)(?=,|$)/g;
  return matches = this.match(regex);    
}

var string = "'string, duppi, du', 23, 'string, duppi, du', lala";
var parsed = string.splitCSV();
alert(parsed.join('|'));

答案 8 :(得分:1)

在将csv读取为字符串时,它在字符串之间包含空值,因此请尝试 \ 0 逐行处理它。

stringLine = stringLine.replace( /\0/g, "" );

答案 9 :(得分:1)

补充this answer

如果您需要解析使用其他引号转义的引号,例如:

"some ""value"" that is on xlsx file",123

您可以使用

function parse(text) {
  const csvExp = /(?!\s*$)\s*(?:'([^'\\]*(?:\\[\S\s][^'\\]*)*)'|"([^"\\]*(?:\\[\S\s][^"\\]*)*)"|"([^""]*(?:"[\S\s][^""]*)*)"|([^,'"\s\\]*(?:\s+[^,'"\s\\]+)*))\s*(?:,|$)/g;

  const values = [];

  text.replace(csvExp, (m0, m1, m2, m3, m4) => {
    if (m1 !== undefined) {
      values.push(m1.replace(/\\'/g, "'"));
    }
    else if (m2 !== undefined) {
      values.push(m2.replace(/\\"/g, '"'));
    }
    else if (m3 !== undefined) {
      values.push(m3.replace(/""/g, '"'));
    }
    else if (m4 !== undefined) {
      values.push(m4);
    }
    return '';
  });

  if (/,\s*$/.test(text)) {
    values.push('');
  }

  return values;
}

答案 10 :(得分:1)

当我必须解析CSV文件时,我也遇到了同样的问题。该文件包含一个列地址,其中包含&#39;,&#39; 。
在将该CSV解析为JSON之后,我将密钥映射不匹配,同时将其转换为JSON文件。
我使用node来解析文件和像baby parsecsvtojson这样的库
文件示例 -

[{
 address: 'foo',
 pincode: 'baar',
 'field3': '123456'
}]

当我在JSON中直接解析而不使用婴儿解析时,我得到了

/*
 csvString(input) = "address, pincode\\nfoo, bar, 123456\\n"
 output = "address, pincode\\nfoo {YOUR DELIMITER} bar, 123455\\n"
*/
const removeComma = function(csvString){
    let delimiter = '|'
    let Baby = require('babyparse')
    let arrRow = Baby.parse(csvString).data;
    /*
      arrRow = [ 
      [ 'address', 'pincode' ],
      [ 'foo, bar', '123456']
      ]
    */
    return arrRow.map((singleRow, index) => {
        //the data will include 
        /* 
        singleRow = [ 'address', 'pincode' ]
        */
        return singleRow.map(singleField => {
            //for removing the comma in the feild
            return singleField.split(',').join(delimiter)
        })
    }).reduce((acc, value, key) => {
        acc = acc +(Array.isArray(value) ?
         value.reduce((acc1, val)=> {
            acc1 = acc1+ val + ','
            return acc1
        }, '') : '') + '\n';
        return acc;
    },'')
}

所以我编写了一个代码,用任何其他分隔符删除逗号(,) 与每个领域

&#13;
&#13;
const csv = require('csvtojson')

let csvString = "address, pincode\\nfoo, bar, 123456\\n"
let jsonArray = []
modifiedCsvString = removeComma(csvString)
csv()
  .fromString(modifiedCsvString)
  .on('json', json => jsonArray.push(json))
  .on('end', () => {
    /* do any thing with the json Array */
  })
&#13;
&#13;
&#13;

返回的函数可以传递给csvtojson库,因此可以使用结果。

&#13;
&#13;
[{
  address: 'foo, bar',
  pincode: 123456
}]
&#13;
&#13;
&#13; 现在您可以获得

之类的输出
html_cont = '<a id="ctl00_ContentPlaceHolder1_rptrContinents_ctl00_rptrRows_ctl00_lnkBunker" href="PortDetails.aspx?ElementID=ffd65ee0-93ea-4195-b1ba-a69c8b1908c5">Amsterdam</a>'    

答案 11 :(得分:1)

在列表中再添加一个,因为我发现以上所有内容都不足够“ KISS”。

此代码使用正则表达式查找逗号或换行符,同时跳过引用的项目。希望这是菜鸟可以自己读懂的东西。 splitFinder正则表达式具有三项功能(由|分隔):

  1. ,-查找逗号
  2. \r?\n-查找新行(如果出口商很好,则可能带有回车符)
  3. "(\\"|[^"])+?"-省略引号中的所有内容,因为逗号和换行符无关紧要。如果引用的项目中有转义的引号\\",则会在找到结束引号之前将其捕获。

const splitFinder = /,|\r?\n|"(\\"|[^"])+?"/g;

function csvTo2dArray(parseMe) {
	let currentRow = [];
	const rowsOut = [currentRow];

	let lastIndex = splitFinder.lastIndex = 0;
	let regexResp;
	// for each regexp match (either comma, newline, or quoted item)
	while (regexResp = splitFinder.exec(parseMe)) {
		const split = regexResp[0];

		// if it's not a quote capture, add an item to the current row
		if (split.startsWith(`"`) === false) {
			const splitStartIndex = splitFinder.lastIndex - split.length;
			const addMe = parseMe.substring(lastIndex, splitStartIndex);
			// remove quotes around the item
			currentRow.push(addMe.replace(/^"|"$/g, ""));
			lastIndex = splitFinder.lastIndex;

			// then start a new row if newline
			const isNewLine = /^\r?\n$/.test(split);
			if (isNewLine) { rowsOut.push(currentRow = []); }
		}
	}
  // make sure to add the trailing text (no commas or newlines after), removing quotes
	currentRow.push(parseMe.slice(lastIndex).replace(/^"|"$/g, ""));
	return rowsOut;
}

const rawCsv = `a,b,c\n"test\r\n","comma, test","\r\n",",",\nsecond,row,ends,with,empty\n"quote\"test"`
const rows = csvTo2dArray(rawCsv);
console.log(rows);

答案 12 :(得分:1)

没有正则表达式,根据https://en.wikipedia.org/wiki/Comma-separated_values#Basic_rules

可读
function csv2arr(str: string) {
    let line = ["",];
    const ret = [line,];
    let quote = false;

    for (let i = 0; i < str.length; i++) {
        const cur = str[i];
        const next = str[i + 1];

        if (!quote) {
            const cellIsEmpty = line[line.length - 1].length === 0;
            if (cur === '"' && cellIsEmpty) quote = true;
            else if (cur === ",") line.push("");
            else if (cur === "\r" && next === "\n") { line = ["",]; ret.push(line); i++; }
            else if (cur === "\n" || cur === "\r") { line = ["",]; ret.push(line); }
            else line[line.length - 1] += cur;
        } else {
            if (cur === '"' && next === '"') { line[line.length - 1] += cur; i++; }
            else if (cur === '"') quote = false;
            else line[line.length - 1] += cur;
        }
    }
    return ret;
}

答案 13 :(得分:0)

使用 npm 库 csv-string 来解析字符串而不是拆分:https://www.npmjs.com/package/csv-string

这将处理引号中的逗号和空条目

答案 14 :(得分:0)

我已经使用过regex多次,但是每次都必须重新学习它,这很令人沮丧:-)

所以这是一个非正则表达式解决方案:

function csvRowToArray(row, delimiter = ',', quoteChar = '"'){
    let nStart = 0, nEnd = 0, a=[], nRowLen=row.length, bQuotedValue;
    while (nStart <= nRowLen) {
        bQuotedValue = (row.charAt(nStart) === quoteChar);
        if (bQuotedValue) {
            nStart++;
            nEnd = row.indexOf(quoteChar + delimiter, nStart)
        } else {
            nEnd = row.indexOf(delimiter, nStart)
        }
        if (nEnd < 0) nEnd = nRowLen;
        a.push(row.substring(nStart,nEnd));
        nStart = nEnd + delimiter.length + (bQuotedValue ? 1 : 0)
    }
    return a;
}

工作方式:

  1. 传入row中的csv字符串。
  2. 当下一个值的起始位置在行中时,请执行以下操作:
    • 如果此值已被引用,请将nEnd设置为结束引用。
    • 否则,如果未引用值,请将nEnd设置为下一个定界符。
    • 将值添加到数组。
    • nStart设置为nEnd加上定长的长度。

有时候,最好编写自己的小函数,而不要使用库。您自己的代码将运行良好,并且占用的空间很小。此外,您可以轻松地对其进行调整以满足自己的需求。

答案 15 :(得分:0)

正则表达式可以解救!这几行代码根据RFC 4180标准使用嵌入的逗号,引号和换行符来正确处理带引号的字段。

function parseCsv(data, fieldSep, newLine) {
    fieldSep = fieldSep || ',';
    newLine = newLine || '\n';
    var nSep = '\x1D';
    var qSep = '\x1E';
    var cSep = '\x1F';
    var nSepRe = new RegExp(nSep, 'g');
    var qSepRe = new RegExp(qSep, 'g');
    var cSepRe = new RegExp(cSep, 'g');
    var fieldRe = new RegExp('(?<=(^|[' + fieldSep + '\\n]))"(|[\\s\\S]+?(?<![^"]"))"(?=($|[' + fieldSep + '\\n]))', 'g');
    var grid = [];
    data.replace(/\r/g, '').replace(/\n+$/, '').replace(fieldRe, function(match, p1, p2) {
        return p2.replace(/\n/g, nSep).replace(/""/g, qSep).replace(/,/g, cSep);
    }).split(/\n/).forEach(function(line) {
        var row = line.split(fieldSep).map(function(cell) {
            return cell.replace(nSepRe, newLine).replace(qSepRe, '"').replace(cSepRe, ',');
        });
        grid.push(row);
    });
    return grid;
}

const csv = 'A1,B1,C1\n"A ""2""","B, 2","C\n2"';
const separator = ',';      // field separator, default: ','
const newline = ' <br /> '; // newline representation in case a field contains newlines, default: '\n' 
var grid = parseCsv(csv, separator, newline);
// expected: [ [ 'A1', 'B1', 'C1' ], [ 'A "2"', 'B, 2', 'C <br /> 2' ] ]

除非另有说明,否则您不需要有限状态机。由于正向查找,负向查找和正向查找,正则表达式可以正确处理RFC 4180。

https://github.com/peterthoeny/parse-csv-js上克隆/下载代码

答案 16 :(得分:0)

您可以像下面的示例一样使用papaparse.js

<!DOCTYPE html>
<html lang="en">
<head>
    <title>CSV</title>
</head>
<body>

    <input type="file" id="files" multiple="">
    <button onclick="csvGetter()">CSV Getter</button>
    <h3>The Result will be in the Console.</h3>


<script src="papaparse.min.js"></script>
<script>
     function csvGetter() {

        var file = document.getElementById('files').files[0];
        Papa.parse(file, {
            complete: function(results) {
                console.log(results.data);
                }
           });
        }

  </script>

  

别忘了在同一个文件夹中包含papaparse.js。

答案 17 :(得分:0)

除了来自ridgerunner的优秀而完整的答案之外,我想到了一个非常简单的解决方法,当你的后端运行php时。

将此php文件添加到域的后端(例如:csv.php

<?php
session_start(); //optional
header("content-type: text/xml");
header("charset=UTF-8");
//set the delimiter and the End of Line character of your csv content:
echo json_encode(array_map('str_getcsv',str_getcsv($_POST["csv"],"\n")));
?>

现在将此功能添加到您的javascript工具包中(我应该修改一下以制作crossbrowser。)

function csvToArray(csv) {
    var oXhr = new XMLHttpRequest;
    oXhr.addEventListener("readystatechange",
            function () {
                if (this.readyState == 4 && this.status == 200) {
                    console.log(this.responseText);
                    console.log(JSON.parse(this.responseText));
                }
            }
    );
    oXhr.open("POST","path/to/csv.php",true);
    oXhr.setRequestHeader("Content-type","application/x-www-form-urlencoded; charset=utf-8");
    oXhr.send("csv=" + encodeURIComponent(csv));
}

您将花费1 ajax电话,但至少您不会复制代码也不会包含任何外部库。

参考:http://php.net/manual/en/function.str-getcsv.php

答案 18 :(得分:0)

根据this blog post,此功能应该这样做:

String.prototype.splitCSV = function(sep) {
  for (var foo = this.split(sep = sep || ","), x = foo.length - 1, tl; x >= 0; x--) {
    if (foo[x].replace(/'\s+$/, "'").charAt(foo[x].length - 1) == "'") {
      if ((tl = foo[x].replace(/^\s+'/, "'")).length > 1 && tl.charAt(0) == "'") {
        foo[x] = foo[x].replace(/^\s*'|'\s*$/g, '').replace(/''/g, "'");
      } else if (x) {
        foo.splice(x - 1, 2, [foo[x - 1], foo[x]].join(sep));
      } else foo = foo.shift().split(sep).concat(foo);
    } else foo[x].replace(/''/g, "'");
  } return foo;
};

你会这样称呼它:

var string = "'string, duppi, du', 23, lala";
var parsed = string.splitCSV();
alert(parsed.join("|"));

This jsfiddle有点作品,但看起来有些元素在它们之前有空格。