哪个java的rdfa解析器支持当前使用的rdfa属性?

时间:2010-05-02 13:04:11

标签: java parsing rdfa

我正在使用Jena构建Java应用程序来进行语义信息抓取。我正在寻找一个RDFa解析器,它允许我正确提取所有RDFa语句。具体来说,提取有关使用的命名空间的信息并假设RDFa标记在页面中正确的信息会产生正确的三元组,即区分对象和数据属性的三元组。

我浏览了来自网站http://rdfa.info/wiki/Consume的所有RDFa解析器以获取Java。他们都努力提取任何RDFa语句,如果它们没有崩溃,Jena RDFa解析器显示大量错误然后死于可怕的死亡,数据没有多大用处,因为它处理不当并且通常混淆。我是这个领域的新手所以请温柔:)

我还在考虑使用以不同语言编写的库,但我又不知道如何将其插入到Java代码中。有什么建议吗?

2 个答案:

答案 0 :(得分:3)

大多数RDFa解析器都在使用无效的HTML。 any23 library包括一个可以处理无效HTML的RDFa解析器。它将任何RDFa解析为完整的RDF,包括命名空间映射等,并且正在积极开发中。

答案 1 :(得分:3)

使用java-rdfa。它支持jena,并使用validator.nu html 5解析器,它像浏览器一样解析html(即它将修复损坏的标记)。