如何从文本文件中排序记录并存储到二进制文件中?

时间:2015-09-02 22:48:30

标签: java sorting arraylist

我有一个输入文本文件,基本上是人们的tsv。我需要对所有记录(按姓氏,名字)进行排序,然后将所有记录存储到二进制文件中。到目前为止,我所做的是创建一个DataRecord对象,其中包含所有相应的字段getter / setterscompareTo。总的来说,我有ArrayList类型DataRecord用于排序目的。

public class DataRecord implements Comparable<DataRecord>{

private String lastName, firstName, middleName, suffix, cityOfBirth;
private int monthOfBirth, dayOfBirth, yearOfBirth;
private char gender;


//getters
public String getLastName() { return this.lastName;}
public String getFirstName() { return this.firstName;}
public String getMiddleName() { return this.middleName;}
public String getSuffix() { return this.suffix;}
public String getCityOfBirth() { return this.cityOfBirth;}
public int getMonthOfBirth() { return this.monthOfBirth;}
public int getDayOfBirth() { return this.dayOfBirth;}
public int getYearOfBirth() { return this.yearOfBirth;}
public char getGender() { return this.gender;}

//setters
public void setLastName(String lastName) { this.lastName = lastName;}
public void setFirstName(String firstName) { this.firstName = firstName;}
public void setMiddleName(String middleName) { this.middleName = middleName;}
public void setSuffix(String suffix) { this.suffix = suffix;}
public void setCityOfBirth(String cityOfBirth) { this.cityOfBirth = cityOfBirth;}
public void setMonthOfBirth(int monthOfBirth) { this.monthOfBirth = monthOfBirth;}
public void setDayOfBirth(int dayOfBirth) { this.dayOfBirth = dayOfBirth;}
public void setYearOfBirth(int yearOfBirth) { this.yearOfBirth = yearOfBirth;}
public void setGender(char gender) { this.gender = gender;}

public DataRecord(){

}

//constructor to make copy of record passed in
public DataRecord(DataRecord copyFrom){
    this.lastName = copyFrom.getLastName();
    this.firstName = copyFrom.getFirstName();
    this.middleName = copyFrom.getMiddleName();
    this.suffix = copyFrom.getSuffix();
    this.monthOfBirth = copyFrom.getMonthOfBirth();
    this.dayOfBirth = copyFrom.getDayOfBirth();
    this.yearOfBirth = copyFrom.getYearOfBirth();
    this.gender = copyFrom.getGender();
    this.cityOfBirth = copyFrom.getCityOfBirth();
}

@Override
public int compareTo(DataRecord arg0) {
    // TODO Auto-generated method stub
    int lastNameCompare;

    //check if the last names are the same, if so return the first name comparison
    if ((lastNameCompare = this.getLastName().compareTo(arg0.getLastName())) == 0){
        return this.getFirstName().compareTo(arg0.getFirstName());
    }

    //otherwise return the last name comparison
    return lastNameCompare;

}

public String toString(){
    return this.getLastName() + ' ' + this.getFirstName();
}

}

public class IOController {

  public static void main(String[] args) throws IOException {
    File inputFile; // input file
    RandomAccessFile dataStream = null; // output stream
    ArrayList<DataRecord> records = new ArrayList<DataRecord>();

    BufferedReader reader = new BufferedReader(new FileReader(args[0]));
    try {
        String sb;
        String line = reader.readLine();
        String[] fields;

        // loop through and read all the lines in the input file
        while (line != null) {
            DataRecord currentRecord = new DataRecord();

            // store the current line into a local string
            sb = line;

            // create an array of all the fields
            fields = sb.split("\t");
            // set the fields for the DataRecord object
            currentRecord.setLastName(fields[0]);
            currentRecord.setFirstName(fields[1]);

            // check other fields exist
            if (fields.length >= 3) {
                currentRecord.setMiddleName(fields[2]);
                currentRecord.setSuffix(fields[3]);
                currentRecord.setMonthOfBirth(Integer.parseInt(fields[4]));
                currentRecord.setDayOfBirth(Integer.parseInt(fields[5]));
                currentRecord.setYearOfBirth(Integer.parseInt(fields[6]));
                currentRecord.setGender(fields[7].charAt(0));
                currentRecord.setCityOfBirth(fields[8]);
            }

            // add the current record to the array list of records
            records.add(currentRecord);
            line = reader.readLine();
        }
    } finally {
        reader.close();
      //Collections.sort(records);
    }

    for (int i = 0; i < 5; i++) {
        System.out.println(records.get(i));
    }

}

}

我的问题是,如果我使用临时DataRecord(名为currentRecord)来读取字段,然后添加到ArrayList,我在每个记录中都有相同的数据ArrayList。如果我将该数据复制到另一个DataRecord对象(使用我传入DataRecord的构造函数),那么我的堆空间就用完了。

records.add(new DataRecord(currentRecord));
line = reader.readLine();

我的错误是使用ArrayList吗?

2 个答案:

答案 0 :(得分:2)

您使用相同的对象引用添加ArrayList并在每次迭代时更新它。只需在每次迭代时创建一个新的对象实例:

while (line != null) {
    DataRecord currentRecord = new DataRecord();
    // rest of the code...
    records.add(currentRecord);
}
//sort the list

作为最佳实践,请在尽可能狭窄的范围内声明变量。

由于堆空间不足,您可以尝试使用-Xmx参数向流程中添加更多ram。如果PC中没有ram你正在执行该过程,那么使用另一种方法,比如将文件拆分成小块,对每个新文件进行排序,然后在这些文件中的数据之间使用合并排序派生。

答案 1 :(得分:2)

  

我的错误是使用ArrayList吗?

没有

您的错误是以下一项或两项:

  • 尝试同时将大文件的信息内容保存在内存中。另一种方法是流式传输数据;例如读取记录,写入记录,读取,记录,写入记录等(当然,这样做的可行性取决于您的&#34;二进制文件表示的性质。)

  • 尝试使用太小的堆运行。 java命令文档解释了如何增加堆大小,但显然这种方法存在实际限制。

记录中,这也是一个错误:

    records.add(currentRecord);

如果这样做,您最终会得到一个列表,其中包含(仅)N个CSV输入文件中最后一条记录的副本。如果要在列表中构建内存中的副本,那么需要为每一行创建一个新的DataRecord对象。

对于记录,更改为LinkedList从长远来看不会有所帮助。通过附加到使用ArrayList创建的列表创建的new ArrayList()最大空间使用量大约是引用大小的3倍。对于LinkedList,空间使用量是参考文献大小的3倍+每个条目增加2个单词。