外部排序GC开销

时间:2017-08-14 18:53:34

标签: java sorting external-sorting

我正在编写一个外部排序来对磁盘上的大型2 gig文件进行排序

我首先将文件拆分为适合内存的块并分别对每个文件进行排序,然后将它们重写回磁盘。但是,在此过程中,我在函数geModel中的String.Split方法中遇到GC内存开销异常。以下是我的代码。

private static List<Model> getModel(String file, long lineCount, final long readSize) {
    List<Model> modelList = new ArrayList<Model>();
    long read = 0L;
    try (BufferedReader br = new BufferedReader(new FileReader(file))) {
        //Skip lineCount lines;
        for (long i = 0; i < lineCount; i++)
            br.readLine();
        String line = "";
        while ((line = br.readLine()) != null) {
            read += line.length();
            if (read > readSize)
                break;
            String[] split = line.split("\t");
            String curvature = (split.length >= 7) ? split[6] : "";
            String heading = (split.length >= 8) ? split[7] : "";
            String slope = (split.length == 9) ? split[8] : "";

            modelList.add(new Model(split[0], split[1], split[2], split[3], split[4], split[5], curvature, heading, slope));
        }   
        br.close();
        return modelList;
    } catch (FileNotFoundException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
    return null;
}

private static void split(String inputDir, String inputFile, String outputDir, final long readSize) throws IOException {
    long lineCount = 0L;
    int count = 0;
    int writeSize = 100000;
    System.out.println("Reading...");
    List<Model> curModel = getModel(inputDir + inputFile, lineCount, readSize);
    System.out.println("Reading Complete");
    while (curModel.size() > 0) {
        lineCount += curModel.size();
        System.out.println("Sorting...");
        curModel.sort(new Comparator<Model>() {
            @Override
            public int compare(Model arg0, Model arg1) {
                return arg0.compareTo(arg1);
            }
        });
        System.out.println("Sorting Complete");
        System.out.println("Writing...");
        writeFile(curModel, outputDir + inputFile + count, writeSize);
        System.out.println("Writing Complete");
        count++;
        System.out.println("Reading...");
        curModel = getModel(inputDir + inputFile, lineCount, readSize);
        System.out.println("Reading Complete");
    }
}

它通过一次传递并从文件中排序~250 MB的数据。但是,在第二次传递时,它会在String.split函数上抛出GC Memory Overhead异常。我不想使用外部库,我想自己学习。排序和拆分工作,但我无法理解为什么GC在string.split函数上抛出内存开销异常。

2 个答案:

答案 0 :(得分:0)

我不确定是什么导致异常 - 操纵大字符串,特别是剪切和拼接它们,是一个巨大的内存/ gc问题。 StringBuilder可以提供帮助,但通常您可能需要对该过程进行更直接的控制。

要了解更多信息,您可能希望在应用中运行探查器。 JDK(VisualVM)内置了一个功能强大的功能。它将向您展示Java所持有的对象...由于字符串的性质,您可能会持有大量冗余字符数组数据。

就个人而言,我会尝试一种完全不同的方法,例如,如果您通过将每行的前10个(?)可排序字符加载到数组中以及从中读取的文件位置,将整个文件排序到内存中该怎么办? ,对数组进行排序并通过加载更多(其余的?)那些相同的行来解决任何关系。

如果您做了类似的事情,那么您应该能够寻找每一行并将其复制到目标文件,而无需在内存中缓存多行,只能读取源文件两次。

我想你可以制作一个文件,如果所有的字符串都是相同的,直到最后几个字符都会失败,所以如果它成为一个问题,你可能必须能够刷新你已缓存的完整字符串(有一个java内存引用对象,为你自动执行此操作,这并不是特别难)

答案 1 :(得分:0)

根据我如何阅读您的实现 readSize ,只确保您获得第一个块X大小。你没有读第二块或第三块。因此它实际上并不完全是外部排序。

 read += line.length();
        if (read > readSize)
            break;
String[] split = line.split("\t");

即使你拆分每一行,你似乎只使用前9个字符。然后检查每行中没有单词。这意味着您的数据不统一。