Question

好的伙计，这是我的代码。我遇到了问题，因为＆＃34; records.csv＆＃34;是一个文件，其中包含更多的2000万行，每个行由4个字段组成，用＆＃39;分隔。

从代码中可以理解，我希望有4个Arraylists，每个Arraylists都包含不同字段的所有值。一段时间后停止工作的方法（我认为因为在列表中添加了一个元素，java有一个指针必须在之前使用所有的arraylist）。

我需要解决，但我不知道如何。

建议？

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;

    public class RecordReader {
    static ArrayList<String> id = new ArrayList <String> ();
    static ArrayList<String> field1 = new ArrayList <String> ();
    static ArrayList<String> field2 = new ArrayList <String> ();
    static ArrayList<String> field3 = new ArrayList <String> ();



    public static void Reader () {
        try {
        FileReader filein = new FileReader("Y:/datasets/records.csv");
        String token="";
        String flag = "id";
        int index=0, next;

        do {
            next = filein.read();

            if (next != -1) {

                if (next !=',' && next !='\n') 
                    token = token + next;

                else if (next == ','){
                    if (flag.compareTo("id")==0) {id.add (index, token); flag = "field1";}
                    else if (flag.compareTo("field1")==0) {field1.add (index, token); token=""; flag = "field2";}
                    else if (flag.compareTo("field2")==0) {field2.add (index, token); token=""; flag = "field3";}
                }

                else if (next == '\n') { 
                    if (flag.compareTo("field3")==0) {field3.add (index, token); token=""; flag = "id"; index++;} 
                }

                char nextc = (char) next; 
                System.out.print(nextc); 
                }
        } while (next!=-1);

        filein.close();
        }
        catch (IOException e) { System.out.println ("ERRORE, birichino!"); }
    }
}

我必须一次完成，文件是711000字节。

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.nio.CharBuffer.wrap(Unknown Source) at sun.nio.cs.StreamEncoder.implWrite(Unknown Source) at sun.nio.cs.StreamEncoder.write(Unknown Source) at java.io.OutputStreamWriter.write(Unknown Source) at java.io.BufferedWriter.flushBuffer(Unknown Source) at java.io.PrintStream.write(Unknown Source) at java.io.PrintStream.print(Unknown Source) at RecordReader.Reader(RecordReader.java:42) at prova.main(prova.java:26)

Answer 1

我有几点建议。

首先，您不需要有4个单独的ArrayLists，只需要一个就可以了。我不会使用filein.read()，而是将FileReader用BufferedReader包裹起来并用它来逐行读取文件，并将每行添加到单个ArrayList。

BufferedReader br = new BufferedReader(filein);
ArrayList<String> content = new ArrayList<String>();
String line = br.readLine();
while(line != null){
    //add lines to ArrayList
    content.add(line);
    line = br.readLine();
}

这会将整个文件的内容读入内存，而不会产生3额外ArrayLists的额外开销。

其次，由于您的字段由,分隔并且（我假设）始终具有相同数量的字段，因此您可以使用split()方法将每一行分隔为一个数组字符串。

String[] record = content.get(index).split(",");
//record[0] = id
//record[1] = field1
//record[2] = field2
//record[3] = field3

将上述内容放入循环中，您可以迭代所有文件的内容。由于您知道如何订购信息，因此检索您想要的信息是微不足道的。

但是，我会警告你，如果文件足够大（有多GB数据），最终这种方法也会失败。

Answer 2

您可以尝试使用-Xmx选项运行应用程序，如下所示

java -Xmx6g [javaclassfile]

我能够解决类似的问题。

CSV Java文件读取和保存（在不同的ArrayList中）

2 个答案: