我需要一个正则表达式在CSV文件中分割数千

时间:2012-08-07 14:55:05

标签: java regex csv

到目前为止,我已经测试了2个正则表达式,但只执行了我想要的部分...

  • ((?:[^,"']|"[^"]*"|'[^']*')+)
  • ,(?=([^"]*"[^"]*")*[^"]*$)

这是我要分割的数据的一个例子......

  • 27230,419.37
  • 27232,688.95
  • 27238,409.4
  • 27240,861.92
  • 27250,176.4
  • 27254,"1,144.16"

由于它是从CSV上传的,如果数字是1000或更高,它很可能会在引号内部使用逗号。我遇到的问题是,当我value.split(',')时,它会在引号之间分开。我想有一个正则表达式,而不是一堆for循环和if语句。任何帮助将不胜感激。

(我使用的是Apex,这就是为什么它'而不是"

3 个答案:

答案 0 :(得分:2)

请勿使用正则表达式,请使用CSV parser

答案 1 :(得分:1)

String input = "27254,\"1,144.16\"";
List<String> data = new ArrayList<String>();
boolean inQuotes = false;
boolean escaped = false;
StringBuilder buf = new StringBuilder();
for (int i = 0; i < input.length(); i++){
    char c = input.charAt(i);
    if (escaped){
        buf.append(c);
        escaped = false;
    } else if (c == '\\') {
        escaped = true;
    } else if (c == '"') {
        inQuotes = !inQuotes;
    } else if (c == ',' && !inQuotes){
        data.add(buf.toString());
        buf = new StringBuilder();
    } else {
        buf.append(c);
    }
}
data.add(buf.toString());

答案 2 :(得分:0)

        for(String line : lines){    
        i++;

        if(skipFirst && i <= 1) continue;
        if(isBlank(line)) return error('Line ' + i + ' blank');
        pattern regex=pattern.compile(',(?=([^"]*"[^"]*")*[^"]*$)');


            cells=regex.split(line);
            string tmp0=cells.get(1).replace('"','');


        if(cells == null || cells.size() < 2) return error('Line ' + i + ' is either blank or contains only one cell');
        code = cells.get(0);
        if(code != null) code = code.trim();
        try{
            //If the amount is empty or null, assume it is 0
            if(cells.get(1) == null || cells.get(1) == ''){
                amount = 0;
            }
            else{
              if(!cells.get(1).contains('"')){
                    amount = Decimal.valueOf(cells.get(1));
              }else{
                    string tmp=cells.get(1).replace('"','');
                    amount = Decimal.valueOf(tmp.replace(',',''));
              }

            }
        }catch(System.TypeException e){
            return error('Line ' + i + ' contains invalid amount');
        }
        values.put(code,amount);

    }

这篇文章是为了后人,因为我确实使用正则表达式找出了salesforce内部的解决方案......但它很长,可能没有必要。