如何从非常大的文件中读取行号x到(x + y)

时间:2017-07-07 16:33:34

标签: java java-8 stream java-stream

我有一个非常大的文本文件,其中必须解析每一行。 我想读x行x + 100000并将每行添加到List中,使list.size< = 100000。 然后该列表将返回到调用方法进行处理,然后调用方法将从上次停止的位置开始询问下一个100k行。

以下代码是使用BufferedReader的一个版本。我返回前100k行很好,但是在下一个调用中,从第100k行开始,它开始在第150k行左右开始减速,在第165k行左右,它会导致OutOfMemoryError。我找到了一种方法来清空缓冲区,一旦它到达我想要开始添加到列表的行,但我找不到任何信息。我也试图找到一种跳过x行的方法,但是我找不到任何东西。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {

    List<MyModel> result = new ArrayList<>();
    try (BufferedReader br = new BufferedReader(new FileReader(inputFile))) {

          String line = null;
          int row = 0;
          int iteration = 0;

          try {
              while (((line = br.readLine()) != null) && iteration < MAX_ROWS) {
                  row++;
                  LOGGER.info("row: " + row + ", iteration: " + iteration);
                  if (row > startLine && iteration < MAX_ROWS) {
                      MyModel model = this.fileReader.populateMyModel(line);
                      model.setFileChecksum(checksum);
                      result.add(model);
                      iteration++;                    
                  }
                  if (iteration >= MAX_ROWS) {
                      break;
                  }
              }
          } catch (Exception e) {

              throw new FileReaderException("Failed to read line " + iteration + " of " + inputFile.getAbsolutePath(), e);
          }
    } catch (FileNotFoundException e1) {
          throw new FileReaderException("Could not find file '" + inputFile.getAbsolutePath() + "'.", e1);
    } catch (IOException e1) {
          throw new FileReaderException("Could not read file '" + inputFile.getAbsolutePath() + "'.", e1);
    }

        return result;
}

在尝试了解如何跳过行时,我遇到了Java 8 Stream读取文件的方式,下面的代码是我尝试以这种方式处理它。这个在第一次通话时效果很好,返回前100k线。对于第二次调用,它从行100k + 1开始,它返回“java.lang.IllegalStateException:stream已经被操作或关闭”。另外,我只想读取x到x + 100k的行然后返回,而不是循环遍历文件的所有行。我是这个Stream对象的新手,但似乎使用它应该提供解决方案。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
    List<MyModel> result = new ArrayList<>();

    try (Stream<String> lines = Files.lines(inputFile.toPath(), Charset.defaultCharset())) {
        lines.skip(startLine);
        lines
        .filter(line -> result.size() <= 100000)
        .forEach(line -> {
            result.add(this.fileReader.populateMyModel(line));
            if (result.size() % 10000 == 0) {
                LOGGER.info("result size: " + result.size());
            }
        });
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

    return result;
}

任何建议都会有所帮助。

1 个答案:

答案 0 :(得分:3)

当你写:

lines.skip(startLine)

您创建了一个新流,但是您没有保存对它的引用,因此您将丢失该操作。

我怀疑你想要这样的东西:

return lines.skip(startLine)
            .limit(100000)
            .map(fileReader::populateMyModel)
            .collect(toList());