从.NET中的DBPedia大转储文件中提取内容

时间:2013-03-20 10:09:15

标签: c# sql-server rdf dbpedia dotnetrdf

我想从DBPedia dump file中为每篇文章提取标签,摘要,类别和相关日期。

我使用dotnetrdf并且我想将提取的数据保存到MS SQL数据库(我不想使用像Virtuoso这样的三重商店)。

由于转储文件的大小,我无法将转储文件加载到内存中。

是否有任何提取语句的解决方案?我能想象的唯一方法是将转储文件拆分成较小的块文件,它是唯一的解决方案吗?

1 个答案:

答案 0 :(得分:3)

实际上dotNetRDF中的所有内容都是为了支持流式解析而设计的,最常见的用例恰好是将内容加载到我们的内存结构中,但即使这样也会使用流式解析器子系统。

请参阅阅读RDF文档的Advanced Parsing部分,其中介绍了Handlers API,此API使用户可以完全控制解析器生成的数据。因此,您可以编写一个自定义处理程序,该处理程序接收流生成的数据并将其放入数据库中。