我正在使用Jena构建Java应用程序来进行语义信息抓取。我正在寻找一个RDFa解析器,它允许我正确提取所有RDFa语句。具体来说,提取有关使用的命名空间的信息并假设RDFa标记在页面中正确的信息会产生正确的三元组,即区分对象和数据属性的三元组。
我浏览了来自网站http://rdfa.info/wiki/Consume的所有RDFa解析器以获取Java。他们都努力提取任何RDFa语句,如果它们没有崩溃,Jena RDFa解析器显示大量错误然后死于可怕的死亡,数据没有多大用处,因为它处理不当并且通常混淆。我是这个领域的新手所以请温柔:)
我还在考虑使用以不同语言编写的库,但我又不知道如何将其插入到Java代码中。有什么建议吗?
答案 0 :(得分:3)
大多数RDFa解析器都在使用无效的HTML。 any23 library包括一个可以处理无效HTML的RDFa解析器。它将任何RDFa解析为完整的RDF,包括命名空间映射等,并且正在积极开发中。
答案 1 :(得分:3)