我正在开发一个从不同网址检索文件的应用程序。
有一个TreeSet包含要下载的目标。这是在循环中处理的,每个项都使用ExecutorService调用。这是一些代码:
private void retrieveDataFiles() {
if (this.urlsToRetrieve.size() > 0) {
System.out.println("Target URLs to retrieve: " + this.urlsToRetrieve.size());
ExecutorService executorProcessUrls = Executors.newFixedThreadPool(this.urlsToRetrieve.size());//could use fixed pool based on size of urls to retrieve
for (Entry target : this.urlsToRetrieve.entrySet()) {
final String fileName = (String) target.getKey();
final String url = (String) target.getValue();
String localFile = localDirectory + File.separator + fileName;
System.out.println(localFile);
executorProcessUrls.submit(new WikiDumpRetriever(url, localFile));
dumpFiles.add(localFile);
//TODO: figure out why only 2 files download
}
executorProcessUrls.shutdown();
try {
executorProcessUrls.awaitTermination(Long.MAX_VALUE, TimeUnit.NANOSECONDS);
} catch (InterruptedException ex) {
System.out.println("retrieveDataFiles InterruptedException: " + ex.getMessage());
}
} else {
System.out.println("No target URL's were retrieved");
}
}
然后是WikiDumpRetriever:
private static class WikiDumpRetriever implements Runnable {
private String wikiUrl;
private String downloadTo;
public WikiDumpRetriever(String targetUrl, String localDirectory) {
this.downloadTo = localDirectory;
this.wikiUrl = targetUrl;
}
public void downloadFile() throws FileNotFoundException, IOException, URISyntaxException {
HTTPCommunicationGet httpGet = new HTTPCommunicationGet(wikiUrl, "");
httpGet.downloadFiles(downloadTo);
}
@Override
public void run() {
try {
downloadFile();
} catch (FileNotFoundException ex) {
System.out.println("WDR: FileNotFound " + ex.getMessage());
} catch (IOException ex) {
System.out.println("WDR: IOException " + ex.getMessage());
} catch (URISyntaxException ex) {
System.out.println("WDR: URISyntaxException " + ex.getMessage());
}
}
}
正如你所看到的,这是一个内在的阶级。 TreeSet包含:
键:值
enwiki-latest-pages-articles.xml.bz2:http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
elwiki-latest-pages-articles.xml.bz2:http://dumps.wikimedia.org/enwiki/latest/elwiki-latest-pages-articles.xml.bz2
zhwiki-latest-pages-articles.xml.bz2:http://dumps.wikimedia.org/enwiki/latest/zhwiki-latest-pages-articles.xml.bz2
hewiki-latest-pages-articles.xml.bz2:http://dumps.wikimedia.org/enwiki/latest/hewiki-latest-pages-articles.xml.bz2
问题是此过程会下载四个文件中的两个。我知道这四个都可用,我知道可以下载它们。但是,其中只有2个在任何时候处理。
任何人都可以为我解释这个问题 - 我错过了什么或者我错了什么?
由于 nathj07
答案 0 :(得分:1)
感谢ppeterka - 这是来源的限制。因此,为了克服这个问题,我将固定线程池大小设置为2.这意味着只能同时下载2个文件。
然后答案是找到供应商施加的限制并设置线程池:
ExecutorService executorProcessUrls = Executors.newFixedThreadPool(2);
我想接受一个答案,但似乎无法用评论来做。对不起,如果这是错误的方法。
感谢所有指点 - “小组认为”真的有助于我解决这个问题。