我正在编写一个外部排序来对磁盘上的大型2 gig文件进行排序
我首先将文件拆分为适合内存的块并分别对每个文件进行排序,然后将它们重写回磁盘。但是,在此过程中,我在函数geModel中的String.Split方法中遇到GC内存开销异常。以下是我的代码。
private static List<Model> getModel(String file, long lineCount, final long readSize) {
List<Model> modelList = new ArrayList<Model>();
long read = 0L;
try (BufferedReader br = new BufferedReader(new FileReader(file))) {
//Skip lineCount lines;
for (long i = 0; i < lineCount; i++)
br.readLine();
String line = "";
while ((line = br.readLine()) != null) {
read += line.length();
if (read > readSize)
break;
String[] split = line.split("\t");
String curvature = (split.length >= 7) ? split[6] : "";
String heading = (split.length >= 8) ? split[7] : "";
String slope = (split.length == 9) ? split[8] : "";
modelList.add(new Model(split[0], split[1], split[2], split[3], split[4], split[5], curvature, heading, slope));
}
br.close();
return modelList;
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
private static void split(String inputDir, String inputFile, String outputDir, final long readSize) throws IOException {
long lineCount = 0L;
int count = 0;
int writeSize = 100000;
System.out.println("Reading...");
List<Model> curModel = getModel(inputDir + inputFile, lineCount, readSize);
System.out.println("Reading Complete");
while (curModel.size() > 0) {
lineCount += curModel.size();
System.out.println("Sorting...");
curModel.sort(new Comparator<Model>() {
@Override
public int compare(Model arg0, Model arg1) {
return arg0.compareTo(arg1);
}
});
System.out.println("Sorting Complete");
System.out.println("Writing...");
writeFile(curModel, outputDir + inputFile + count, writeSize);
System.out.println("Writing Complete");
count++;
System.out.println("Reading...");
curModel = getModel(inputDir + inputFile, lineCount, readSize);
System.out.println("Reading Complete");
}
}
它通过一次传递并从文件中排序~250 MB的数据。但是,在第二次传递时,它会在String.split函数上抛出GC Memory Overhead异常。我不想使用外部库,我想自己学习。排序和拆分工作,但我无法理解为什么GC在string.split函数上抛出内存开销异常。
答案 0 :(得分:0)
我不确定是什么导致异常 - 操纵大字符串,特别是剪切和拼接它们,是一个巨大的内存/ gc问题。 StringBuilder可以提供帮助,但通常您可能需要对该过程进行更直接的控制。
要了解更多信息,您可能希望在应用中运行探查器。 JDK(VisualVM)内置了一个功能强大的功能。它将向您展示Java所持有的对象...由于字符串的性质,您可能会持有大量冗余字符数组数据。
就个人而言,我会尝试一种完全不同的方法,例如,如果您通过将每行的前10个(?)可排序字符加载到数组中以及从中读取的文件位置,将整个文件排序到内存中该怎么办? ,对数组进行排序并通过加载更多(其余的?)那些相同的行来解决任何关系。
如果您做了类似的事情,那么您应该能够寻找每一行并将其复制到目标文件,而无需在内存中缓存多行,只能读取源文件两次。
我想你可以制作一个文件,如果所有的字符串都是相同的,直到最后几个字符都会失败,所以如果它成为一个问题,你可能必须能够刷新你已缓存的完整字符串(有一个java内存引用对象,为你自动执行此操作,这并不是特别难)
答案 1 :(得分:0)
根据我如何阅读您的实现 readSize ,只确保您获得第一个块X大小。你没有读第二块或第三块。因此它实际上并不完全是外部排序。
read += line.length();
if (read > readSize)
break;
String[] split = line.split("\t");
即使你拆分每一行,你似乎只使用前9个字符。然后检查每行中没有单词。这意味着您的数据不统一。