我目前有一个程序在单线程模式下读取文件(非常大)并创建搜索索引,但在单线程环境中索引需要很长时间。
现在我试图让它在多线程模式下工作,但不确定实现它的最佳方法。
我的主程序创建一个缓冲读取器并将实例传递给线程,线程使用缓冲的读取器实例来读取文件。
我认为这不会按预期工作,而是每个线程一次又一次地读取同一行。
有没有办法让线程只读取其他线程无法读取的行?我需要拆分文件吗?有没有办法在不拆分文件的情况下实现这个?
示例主程序:
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.ArrayList;
public class TestMTFile {
public static void main(String args[]) {
BufferedReader reader = null;
ArrayList<Thread> threads = new ArrayList<Thread>();
try {
reader = new BufferedReader(new FileReader(
"test.tsv"));
} catch (FileNotFoundException e1) {
e1.printStackTrace();
}
for (int i = 0; i <= 10; i++) {
Runnable task = new ReadFileMT(reader);
Thread worker = new Thread(task);
// We can set the name of the thread
worker.setName(String.valueOf(i));
// Start the thread, never call method run() direct
worker.start();
// Remember the thread for later usage
threads.add(worker);
}
int running = 0;
int runner1 = 0;
int runner2 = 0;
do {
running = 0;
for (Thread thread : threads) {
if (thread.isAlive()) {
runner1 = running++;
}
}
if (runner2 != runner1) {
runner2 = runner1;
System.out.println("We have " + runner2 + " running threads. ");
}
} while (running > 0);
if (running == 0) {
System.out.println("Ended");
}
}
}
发
import java.io.BufferedReader;
import java.io.IOException;
public class ReadFileMT implements Runnable {
BufferedReader bReader = null;
ReadFileMT(BufferedReader reader) {
this.bReader = reader;
}
public synchronized void run() {
String line;
try {
while ((line = bReader.readLine()) != null) {
try {
System.out.println(line);
} catch (Exception e) {
}
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
答案 0 :(得分:7)
您的瓶颈很可能是索引,不文件读取。假设你的索引系统支持多个线程,你可能想要一个生产者/消费者设置,其中一个线程读取文件并将每一行推入BlockingQueue(生产者),多个线程从BlockingQueue中拉出线并将它们推入索引(消费者)。
答案 1 :(得分:6)
请参阅this thread - 如果您的文件全部位于同一磁盘上,那么您使用单个线程读取它们的效果最好,尽管可以处理文件一旦你将它们读入主存储器,就会有多个线程。
答案 2 :(得分:3)
如果您可以使用Java 8,则可以使用Streams API快速轻松地完成此操作。将文件读入MappedByteBuffer,它可以非常快速地打开2GB的文件,然后读取缓冲区中的行(您需要确保您的JVM有足够的额外内存来保存文件):
package com.objective.stream;
import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.stream.Stream;
public class StreamsFileProcessor {
private MappedByteBuffer buffer;
public static void main(String[] args){
if (args[0] != null){
Path myFile = Paths.get(args[0]);
StreamsFileProcessor proc = new StreamsFileProcessor();
try {
proc.process(myFile);
} catch (IOException e) {
e.printStackTrace();
}
}
}
public void process(Path file) throws IOException {
readFileIntoBuffer(file);
getBufferStream().parallel()
.forEach(this::doIndex);
}
private Stream<String> getBufferStream() throws IOException {
try (BufferedReader reader = new BufferedReader(new InputStreamReader(new ByteArrayInputStream(buffer.array())))){
return reader.lines();
}
}
private void readFileIntoBuffer(Path file) throws IOException{
try(FileInputStream fis = new FileInputStream(file.toFile())){
FileChannel channel = fis.getChannel();
buffer = channel.map(FileChannel.MapMode.PRIVATE, 0, channel.size());
}
}
private void doIndex(String s){
// Do whatever I need to do to index the line here
}
}
答案 3 :(得分:0)
首先,我同意@ Zim-Zam认为它是文件IO,而不是索引,这可能是速率确定步骤。 (所以我不同意@jtahlborn)。取决于索引的复杂程度。
其次,在您的代码中,每个线程都有自己的,独立的BufferedReader
。因此他们都将读取整个文件。一种可能的解决方法是使用他们共享的单个BufferedReader
。然后你需要同步BufferedReader.readLine()
方法(我认为),因为javadocs对BufferedReader
是否是线程安全的是静默的。而且,由于我认为IO是botleneck,这将成为瓶颈,我怀疑多线程是否会让你获益匪浅。但试一试,我偶尔也会错。 : - )
P.S。我同意@jtahlmorn认为生产者/消费者模式比我分享BufferedReader的想法更好,但这对你来说会更有用。