Apache Jena获得“ERROR riot”处理元素

时间:2014-01-04 02:42:09

标签: rdf jena

我这里有一个RDF文件:rdf.rdf,其中有35696条记录。我正试图用Jena处理它:

./bin/sparql --data=/tmp/rdf.rdf --query=./basic.query

但我得到了:

21:25:27 ERROR riot                 :: Element type "j.0:target" must be followed by either attribute specifications, ">" or "/>".
Failed to load data

我认为问题是一个特定的记录,但我不知道哪一个,有没有人有办法检查这个或命令产生问题的行号?

1 个答案:

答案 0 :(得分:6)

问题是该数据不是RDF / XML(甚至是XML)

输入的一个大问题是它不是合法的RDF / XML,甚至是合法的XML。有许多行包含格式错误的字符串,例如

$ grep '""' rdf.rdf
<j.0:target rdf:resource="urn:evitakarina""/>
<j.0:target rdf:resource="urn:MiaWaluyo""/>
<j.0:target rdf:resource="urn:AnggaMOB""/>
…

实体也存在一些问题,或者更确切地说,出现不是实体的&符号的地方。 E.g:

$ grep "&" rdf-without-quotes.rdf 
<j.0:target rdf:resource="urn:HERUWA--&gty"/>
<j.0:target rdf:resource="urn:PiniiPin&andreasbimoo"/>

如果你用&amp;替换每一个,你会得到更多(尽管可能&gt应该是>?),但有仍然问题。在此之后,您可能会追踪:

<j.0:target rdf:resource="urn:cordeliabuvaledesilvaa"jajajajajajajajaja"/>

不幸的是,我不知道如何获得有关行号的更好的调试信息。由于这个(不完全)RDF / XML文档是如此有规律地构建,因此为了缩小问题范围而将其削减几次并不难,并且从经验中看出这些事情通常来自某些不良角色在它不应该的地方,这就是我所寻找的(和找到的)。

生成更好的数据

如果您对数据有任何控制权(例如,如果您正在生成数据),我强烈建议您考虑使用RDF API(例如,Jena)生成数据,以便从任何数据生成RDF数据原始输入数据,而不是将其混合到一些基于文本的模板中。这可能会给你最好的输出。否则,您只需要更加小心URL编码必须是URL的东西。大多数语言都包含一些标准库功能来处理它。

使用Jena并不难。我建议尝试重建一个包含有问题的数据的最小模型。这是从您的数据中获取的一个小样本(但它是一个完整的RDF / XML文档(或者,如果它不是针对上面讨论的问题):)

<?xml version="1.0" encoding="iso-8859-1" ?>
<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:j.0="urn:" >
<rdf:Description rdf:about="urn:communication243">
    <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
    <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
    <j.0:source rdf:resource="urn:wirojericko"/>
    <j.0:target rdf:resource="urn:evitakarina""/>
</rdf:Description>
<rdf:Description rdf:about="urn:communication4574">
    <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
    <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
    <j.0:source rdf:resource="urn:renomaximuz"/>
    <j.0:target rdf:resource="urn:HERUWA--&gty"/>
</rdf:Description>
</rdf:RDF>

我们可以使用以下代码使用Jena重新创建它。我已将值存储在Object[][]数组中,以便我们甚至可以模拟迭代原始输入数据。

import com.hp.hpl.jena.rdf.model.Model;
import com.hp.hpl.jena.rdf.model.ModelFactory;
import com.hp.hpl.jena.rdf.model.Property;
import com.hp.hpl.jena.rdf.model.Resource;

public class RecreateRDFExample {
    public static void main(String[] args) {
        final String NS = "urn:";
        final Model model = ModelFactory.createDefaultModel();
        final Object[][] data = {
                { 243, 20120219L, 2012021910L, "wirojericko", "evitakarina\"" }, 
                { 4574, 20120304L, 2012030406L, "renomaximuz", "HERUWA--&gty" }
        };

        final Property hour = model.createProperty( NS+"hour" );
        final Property minute = model.createProperty( NS+"minute" );
        final Property source = model.createProperty( NS+"source" );
        final Property target = model.createProperty( NS+"target" );

        for ( Object[] communication : data ) { 
            final Resource com = model.createResource( NS + "communication" + communication[0] );
            com.addLiteral( hour, (long) communication[1] ); 
            com.addLiteral( minute, (long) communication[2] ); 
            com.addProperty( source, model.createResource( NS+communication[3] ));
            com.addProperty( target, model.createResource( NS+communication[4] ));
        }

        model.write( System.out );
    }
}

输出正是我们所希望的; IRI已使用&quot;&amp;进行了适当编码。

<rdf:RDF
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:j.0="urn:" > 
  <rdf:Description rdf:about="urn:communication243">
    <j.0:target rdf:resource="urn:evitakarina&quot;"/>
    <j.0:source rdf:resource="urn:wirojericko"/>
    <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
    <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
  </rdf:Description>
  <rdf:Description rdf:about="urn:communication4574">
    <j.0:target rdf:resource="urn:HERUWA--&amp;gty"/>
    <j.0:source rdf:resource="urn:renomaximuz"/>
    <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
    <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
  </rdf:Description>
</rdf:RDF>