我有一个输入文本文件,基本上是人们的tsv。我需要对所有记录(按姓氏,名字)进行排序,然后将所有记录存储到二进制文件中。到目前为止,我所做的是创建一个DataRecord
对象,其中包含所有相应的字段getter
/ setters
和compareTo
。总的来说,我有ArrayList
类型DataRecord
用于排序目的。
public class DataRecord implements Comparable<DataRecord>{
private String lastName, firstName, middleName, suffix, cityOfBirth;
private int monthOfBirth, dayOfBirth, yearOfBirth;
private char gender;
//getters
public String getLastName() { return this.lastName;}
public String getFirstName() { return this.firstName;}
public String getMiddleName() { return this.middleName;}
public String getSuffix() { return this.suffix;}
public String getCityOfBirth() { return this.cityOfBirth;}
public int getMonthOfBirth() { return this.monthOfBirth;}
public int getDayOfBirth() { return this.dayOfBirth;}
public int getYearOfBirth() { return this.yearOfBirth;}
public char getGender() { return this.gender;}
//setters
public void setLastName(String lastName) { this.lastName = lastName;}
public void setFirstName(String firstName) { this.firstName = firstName;}
public void setMiddleName(String middleName) { this.middleName = middleName;}
public void setSuffix(String suffix) { this.suffix = suffix;}
public void setCityOfBirth(String cityOfBirth) { this.cityOfBirth = cityOfBirth;}
public void setMonthOfBirth(int monthOfBirth) { this.monthOfBirth = monthOfBirth;}
public void setDayOfBirth(int dayOfBirth) { this.dayOfBirth = dayOfBirth;}
public void setYearOfBirth(int yearOfBirth) { this.yearOfBirth = yearOfBirth;}
public void setGender(char gender) { this.gender = gender;}
public DataRecord(){
}
//constructor to make copy of record passed in
public DataRecord(DataRecord copyFrom){
this.lastName = copyFrom.getLastName();
this.firstName = copyFrom.getFirstName();
this.middleName = copyFrom.getMiddleName();
this.suffix = copyFrom.getSuffix();
this.monthOfBirth = copyFrom.getMonthOfBirth();
this.dayOfBirth = copyFrom.getDayOfBirth();
this.yearOfBirth = copyFrom.getYearOfBirth();
this.gender = copyFrom.getGender();
this.cityOfBirth = copyFrom.getCityOfBirth();
}
@Override
public int compareTo(DataRecord arg0) {
// TODO Auto-generated method stub
int lastNameCompare;
//check if the last names are the same, if so return the first name comparison
if ((lastNameCompare = this.getLastName().compareTo(arg0.getLastName())) == 0){
return this.getFirstName().compareTo(arg0.getFirstName());
}
//otherwise return the last name comparison
return lastNameCompare;
}
public String toString(){
return this.getLastName() + ' ' + this.getFirstName();
}
}
public class IOController {
public static void main(String[] args) throws IOException {
File inputFile; // input file
RandomAccessFile dataStream = null; // output stream
ArrayList<DataRecord> records = new ArrayList<DataRecord>();
BufferedReader reader = new BufferedReader(new FileReader(args[0]));
try {
String sb;
String line = reader.readLine();
String[] fields;
// loop through and read all the lines in the input file
while (line != null) {
DataRecord currentRecord = new DataRecord();
// store the current line into a local string
sb = line;
// create an array of all the fields
fields = sb.split("\t");
// set the fields for the DataRecord object
currentRecord.setLastName(fields[0]);
currentRecord.setFirstName(fields[1]);
// check other fields exist
if (fields.length >= 3) {
currentRecord.setMiddleName(fields[2]);
currentRecord.setSuffix(fields[3]);
currentRecord.setMonthOfBirth(Integer.parseInt(fields[4]));
currentRecord.setDayOfBirth(Integer.parseInt(fields[5]));
currentRecord.setYearOfBirth(Integer.parseInt(fields[6]));
currentRecord.setGender(fields[7].charAt(0));
currentRecord.setCityOfBirth(fields[8]);
}
// add the current record to the array list of records
records.add(currentRecord);
line = reader.readLine();
}
} finally {
reader.close();
//Collections.sort(records);
}
for (int i = 0; i < 5; i++) {
System.out.println(records.get(i));
}
}
}
我的问题是,如果我使用临时DataRecord
(名为currentRecord
)来读取字段,然后添加到ArrayList
,我在每个记录中都有相同的数据ArrayList
。如果我将该数据复制到另一个DataRecord
对象(使用我传入DataRecord
的构造函数),那么我的堆空间就用完了。
records.add(new DataRecord(currentRecord));
line = reader.readLine();
我的错误是使用ArrayList
吗?
答案 0 :(得分:2)
您使用相同的对象引用添加ArrayList
并在每次迭代时更新它。只需在每次迭代时创建一个新的对象实例:
while (line != null) {
DataRecord currentRecord = new DataRecord();
// rest of the code...
records.add(currentRecord);
}
//sort the list
作为最佳实践,请在尽可能狭窄的范围内声明变量。
由于堆空间不足,您可以尝试使用-Xmx
参数向流程中添加更多ram。如果PC中没有ram你正在执行该过程,那么使用另一种方法,比如将文件拆分成小块,对每个新文件进行排序,然后在这些文件中的数据之间使用合并排序派生。
答案 1 :(得分:2)
我的错误是使用ArrayList吗?
没有
您的错误是以下一项或两项:
尝试同时将大文件的信息内容保存在内存中。另一种方法是流式传输数据;例如读取记录,写入记录,读取,记录,写入记录等(当然,这样做的可行性取决于您的&#34;二进制文件表示的性质。)
尝试使用太小的堆运行。 java命令文档解释了如何增加堆大小,但显然这种方法存在实际限制。
记录中,这也是一个错误:
records.add(currentRecord);
如果这样做,您最终会得到一个列表,其中包含(仅)N个CSV输入文件中最后一条记录的副本。如果要在列表中构建内存中的副本,那么需要为每一行创建一个新的DataRecord
对象。
对于记录,更改为LinkedList
从长远来看不会有所帮助。通过附加到使用ArrayList
创建的列表创建的new ArrayList()
的最大空间使用量大约是引用大小的3倍。对于LinkedList
,空间使用量是参考文献大小的3倍+每个条目增加2个单词。