如何在TDB TripleStore中加载模型

时间:2014-09-15 14:22:11

标签: java web-services rdf jena tdb

我有一个问题:

我想在Jena TDB TripleStore上加载一个文件。 我的文件很大,大约80Mb,大约700000三元组RDF。当我尝试加载它时,执行停止工作或需要很长时间。

我正在使用我在Web服务上运行的代码:

        String file = "C:\\file.nt";
        String directory;
        directory = "C:\\tdb";
        Dataset dataset = TDBFactory.createDataset(directory);

        Model model = ModelFactory.createDefaultModel();

        TDBLoader.loadModel(model, file );
        dataset.addNamedModel("http://nameFile", model); 

        return model;

有时我会收到Java堆空间的错误:

Caused by: java.lang.OutOfMemoryError: Java heap space
    at org.apache.jena.riot.tokens.TokenizerText.parseToken(TokenizerText.java:170)
    at org.apache.jena.riot.tokens.TokenizerText.hasNext(TokenizerText.java:86)
    at org.apache.jena.atlas.iterator.PeekIterator.fill(PeekIterator.java:50)
    at org.apache.jena.atlas.iterator.PeekIterator.next(PeekIterator.java:92)
    at org.apache.jena.riot.lang.LangEngine.nextToken(LangEngine.java:99)
    at org.apache.jena.riot.lang.LangNTriples.parseOne(LangNTriples.java:67)
    at org.apache.jena.riot.lang.LangNTriples.runParser(LangNTriples.java:54)
    at org.apache.jena.riot.lang.LangBase.parse(LangBase.java:42)
    at org.apache.jena.riot.RDFParserRegistry$ReaderRIOTFactoryImpl$1.read(RDFParserRegistry.java:142)
    at org.apache.jena.riot.RDFDataMgr.process(RDFDataMgr.java:859)
    at org.apache.jena.riot.RDFDataMgr.read(RDFDataMgr.java:255)
    at org.apache.jena.riot.RDFDataMgr.read(RDFDataMgr.java:241)
    at org.apache.jena.riot.adapters.RDFReaderRIOT_Web.read(RDFReaderRIOT_Web.java:96)
    at com.hp.hpl.jena.rdf.model.impl.ModelCom.read(ModelCom.java:241)
    at com.hp.hpl.jena.tdb.TDBLoader.loadAnything(TDBLoader.java:294)
    at com.hp.hpl.jena.tdb.TDBLoader.loadModel(TDBLoader.java:125)
    at com.hp.hpl.jena.tdb.TDBLoader.loadModel(TDBLoader.java:119)

如何在模型Jena中加载此文件并将其保存在TDB中?提前谢谢。

1 个答案:

答案 0 :(得分:2)

您需要allocate more memory for your JVM at statup。当你太少时,这个过程将花费太多时间进行垃圾收集,并最终会失败。

例如,通过以下方式启动具有4 GB内存的JVM:

java -Xms4G -XmxG

如果你在Eclipse这样的IDE中,你可以change your run configuration以便应用程序也有额外的内存。

除此之外,对我来说唯一的变化是你正在使用内存模型进行实际的加载操作,而实际上你可以使用由TDB支持的模型。这有助于缓解内存问题,因为TDB会动态地将其索引移动到磁盘上。

变化:

Dataset dataset = TDBFactory.createDataset(directory);
Model model = ModelFactory.createDefaultModel();
TDBLoader.loadModel(model, file );
dataset.addNamedModel("http://nameFile", model);

到此:

Dataset dataset = TDBFactory.createDataset(directory);
Model model = dataset.getNamedModel("http://nameFile");
TDBLoader.loadModel(model, file );

现在,您的系统依赖于TDB能够做出关于何时将数据留在内存中以及何时将其刷新到磁盘的良好决策。