我是一个Java新手,似乎无法弄清楚为什么这个原始的,20分钟的应用程序正在抛出异常。
基本上我正在解析一个192MB(是的,192MB)制表符分隔的文本文件并将内容存储到MongoDB中。
package get_alternatenames;
import java.io.BufferedReader;
import java.io.FileReader;
import com.mongodb.Mongo;
import com.mongodb.DB;
import com.mongodb.DBCollection;
import com.mongodb.BasicDBObject;
import com.mongodb.DBObject;
import com.mongodb.DBCursor;
import java.util.Set;
/**
*
* @author cbmeeks
*/
public class Main {
/**
* @param args the command line arguments
*/
public static void main(String[] args) throws Exception {
String alternateNamesFileName = "/Users/cbmeeks/Projects/GetData/geonames/alternateNames.txt";
String line;
// MongoDB
Mongo m = new Mongo("localhost", 27017);
DB db = m.getDB("mydb");
// Build AlternateNames
DBCollection altNames = db.getCollection("alternatenames");
BufferedReader bReader = new BufferedReader(new FileReader(alternateNamesFileName));
int isPreferredName = 0;
int isShortName = 0;
int lines = 0;
System.out.println("Starting AlternateNames import...");
while ((line = bReader.readLine()) != null) {
String l[] = line.split("\t");
BasicDBObject altName = new BasicDBObject();
altName.put("alternateNameId", l[0]);
altName.put("geonameId", l[1]);
altName.put("isoLanguage", l[2]);
altName.put("alternateName", l[3]);
isPreferredName = 0;
isShortName = 0;
try {
if (l[4] != null) {
isPreferredName = Integer.parseInt(l[4]);
}
} catch (ArrayIndexOutOfBoundsException ex) {
isPreferredName = 0;
} catch (Exception ex) {
isPreferredName = 0;
}
try {
if (l[5] != null) {
isShortName = Integer.parseInt(l[5]);
}
} catch (ArrayIndexOutOfBoundsException ex) {
isShortName = 0;
} catch (Exception ex) {
isShortName = 0;
}
altName.put("isPreferredName", isPreferredName);
altName.put("isShortName", isShortName);
altNames.insert(altName);
lines++;
}
bReader.close();
System.out.println("Number of lines parsed: " + lines);
System.out.println("Creating indexes...");
altNames.createIndex(new BasicDBObject("geonameId", 1));
altNames.createIndex(new BasicDBObject("isoLanguage", 1));
altNames.createIndex(new BasicDBObject("alternateName", 1));
}
}
我知道这不是世界上最美丽的代码。它实际上似乎工作到最后。它成功导入540万条记录,然后结束:
Starting AlternateNames import...
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException
Java Result: 1
BUILD SUCCESSFUL (total time: 2 minutes 58 seconds)
我似乎无法找到问题所在。我试图搜索文本文件以找到问题,但在192MB,似乎没有什么能够处理它除了MacVIM,我不能完全了解该程序。洛尔
但我确信它没有完成文件。当我转到文本文件中导入的最后一条记录时(基于MongoDB中的记录数),它看起来很好......但我可能会遗漏一些东西。
有什么建议吗?
感谢。
BTW,感谢Java在3分钟内解析该文本文件...
答案 0 :(得分:2)
为什么不像这样添加数组长度检查
String l[] = line.split("\t");
if(l.length == 6 )
{
BasicDBObject altName = new BasicDBObject();
altName.put("alternateNameId", l[0]);
altName.put("geonameId", l[1]);
altName.put("isoLanguage", l[2]);
altName.put("alternateName", l[3]);
...
答案 1 :(得分:1)
本节
while ((line = bReader.readLine()) != null) {
String l[] = line.split("\t");
BasicDBObject altName = new BasicDBObject();
altName.put("alternateNameId", l[0]);
altName.put("geonameId", l[1]);
altName.put("isoLanguage", l[2]);
altName.put("alternateName", l[3]);
是您通过索引访问数组元素但不在ArrayIndexOutOfBounds的try / catch块中的唯一部分,因此必须在此处的某处抛出异常。因此,只要你使用少于4个元素的线路,就会出现繁荣。将所有内容包装在try catch中,或者按照Bala的建议进行操作,并在输入代码部分之前测试l的长度。
我想要在外部来源提取数据的任何地方进行某种检查,并且您需要正确的内容才能使事情正常工作。
答案 2 :(得分:0)
由于你没有说明你的例外是什么行,我将使用我的心灵调试技巧。
我的通灵能力告诉我你文件末尾有一个空行,当你去寻找其中的字段时,你会得到一个例外,因为空行上没有字段。
要么查找空白行,要么不要尝试查找不存在的字段。
答案 3 :(得分:0)
这是我修正后的代码。谢谢大家的提示。
package get_alternatenames;
import java.io.BufferedReader;
import java.io.FileReader;
import com.mongodb.Mongo;
import com.mongodb.DB;
import com.mongodb.DBCollection;
import com.mongodb.BasicDBObject;
import com.mongodb.DBObject;
import com.mongodb.DBCursor;
import java.util.Set;
/**
*
* @author cbmeeks
*/
public class Main {
/**
* @param args the command line arguments
*/
public static void main(String[] args) throws Exception {
String alternateNamesFileName = "/Users/cbmeeks/Projects/GetData/geonames/alternateNames.txt";
String line;
// MongoDB
Mongo m = new Mongo("localhost", 27017);
DB db = m.getDB("MyDB");
// Build AlternateNames
DBCollection altNames = db.getCollection("alternatenames");
BufferedReader bReader = new BufferedReader(new FileReader(alternateNamesFileName));
int isPreferredName = 0;
int isShortName = 0;
int lines = 0;
System.out.println("Starting AlternateNames import...");
while ((line = bReader.readLine()) != null) {
try {
String l[] = line.split("\t");
if (l.length >= 4) {
BasicDBObject altName = new BasicDBObject();
altName.put("alternateNameId", Integer.parseInt(l[0]));
altName.put("geonameId", Integer.parseInt(l[1]));
altName.put("isoLanguage", l[2]);
altName.put("alternateName", l[3]);
isPreferredName = 0;
isShortName = 0;
if (l.length == 5) {
isPreferredName = Integer.parseInt(l[4]);
}
if (l.length == 6) {
isPreferredName = Integer.parseInt(l[4]);
isShortName = Integer.parseInt(l[5]);
}
altName.put("isPreferredName", isPreferredName);
altName.put("isShortName", isShortName);
altNames.insert(altName);
lines++;
}
} catch (Exception ex) {
}
}
bReader.close();
System.out.println("Number of lines parsed: " + lines);
System.out.println("Creating indexes...");
altNames.createIndex(new BasicDBObject("geonameId", 1));
altNames.createIndex(new BasicDBObject("isoLanguage", 1));
altNames.createIndex(new BasicDBObject("alternateName", 1));
}
}