我试图将freebase rdf导入谷歌精炼但却出错......但现在如何从18 gb rdf中提取主题名称从18 gb rdf到csv等....任何gui工具?
答案 0 :(得分:2)
对于OpenRefine(ex-Google Refine)来说,146 GB太大了。如果有一个GUI工具可以开箱即用,我不熟悉它,但因为这是一个编程Q&一个网站,我将提供一个shell编程解决方案。您不需要了解Linux的任何信息,但您需要知道如何使用Unix shell命令(您可以在Windows上使用Cygwin)。
curl -L http://download.freebaseapps.com | gunzip | egrep 'notable_for|notable_type|rdfs:label'
将为您提供组装解决方案所需的所有原始数据。具有关键信息的行看起来像这样,但如果您只想要标签/名称,则需要将它们替换为第一个和最后一个列中的主题/对象ID。
ns:m.01nsxs2 ns:common.topic.notable_types ns:m.0kpv17.