我有一个非常大的文本文件,其中必须解析每一行。 我想读x行x + 100000并将每行添加到List中,使list.size< = 100000。 然后该列表将返回到调用方法进行处理,然后调用方法将从上次停止的位置开始询问下一个100k行。
以下代码是使用BufferedReader的一个版本。我返回前100k行很好,但是在下一个调用中,从第100k行开始,它开始在第150k行左右开始减速,在第165k行左右,它会导致OutOfMemoryError。我找到了一种方法来清空缓冲区,一旦它到达我想要开始添加到列表的行,但我找不到任何信息。我也试图找到一种跳过x行的方法,但是我找不到任何东西。
public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
List<MyModel> result = new ArrayList<>();
try (BufferedReader br = new BufferedReader(new FileReader(inputFile))) {
String line = null;
int row = 0;
int iteration = 0;
try {
while (((line = br.readLine()) != null) && iteration < MAX_ROWS) {
row++;
LOGGER.info("row: " + row + ", iteration: " + iteration);
if (row > startLine && iteration < MAX_ROWS) {
MyModel model = this.fileReader.populateMyModel(line);
model.setFileChecksum(checksum);
result.add(model);
iteration++;
}
if (iteration >= MAX_ROWS) {
break;
}
}
} catch (Exception e) {
throw new FileReaderException("Failed to read line " + iteration + " of " + inputFile.getAbsolutePath(), e);
}
} catch (FileNotFoundException e1) {
throw new FileReaderException("Could not find file '" + inputFile.getAbsolutePath() + "'.", e1);
} catch (IOException e1) {
throw new FileReaderException("Could not read file '" + inputFile.getAbsolutePath() + "'.", e1);
}
return result;
}
在尝试了解如何跳过行时,我遇到了Java 8 Stream读取文件的方式,下面的代码是我尝试以这种方式处理它。这个在第一次通话时效果很好,返回前100k线。对于第二次调用,它从行100k + 1开始,它返回“java.lang.IllegalStateException:stream已经被操作或关闭”。另外,我只想读取x到x + 100k的行然后返回,而不是循环遍历文件的所有行。我是这个Stream对象的新手,但似乎使用它应该提供解决方案。
public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
List<MyModel> result = new ArrayList<>();
try (Stream<String> lines = Files.lines(inputFile.toPath(), Charset.defaultCharset())) {
lines.skip(startLine);
lines
.filter(line -> result.size() <= 100000)
.forEach(line -> {
result.add(this.fileReader.populateMyModel(line));
if (result.size() % 10000 == 0) {
LOGGER.info("result size: " + result.size());
}
});
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return result;
}
任何建议都会有所帮助。
答案 0 :(得分:3)
当你写:
lines.skip(startLine)
您创建了一个新流,但是您没有保存对它的引用,因此您将丢失该操作。
我怀疑你想要这样的东西:
return lines.skip(startLine)
.limit(100000)
.map(fileReader::populateMyModel)
.collect(toList());