我想从DBPedia dump file中为每篇文章提取标签,摘要,类别和相关日期。
我使用dotnetrdf并且我想将提取的数据保存到MS SQL数据库(我不想使用像Virtuoso这样的三重商店)。
由于转储文件的大小,我无法将转储文件加载到内存中。
是否有任何提取语句的解决方案?我能想象的唯一方法是将转储文件拆分成较小的块文件,它是唯一的解决方案吗?
答案 0 :(得分:3)
实际上dotNetRDF中的所有内容都是为了支持流式解析而设计的,最常见的用例恰好是将内容加载到我们的内存结构中,但即使这样也会使用流式解析器子系统。
请参阅阅读RDF文档的Advanced Parsing部分,其中介绍了Handlers API,此API使用户可以完全控制解析器生成的数据。因此,您可以编写一个自定义处理程序,该处理程序接收流生成的数据并将其放入数据库中。