说明:
我是BI瘾君子,我想开发一个项目来深入了解维基百科的数据
我会编写脚本来从dbpedia中提取数据(可能从人物文章开始)并将其加载到人员表中。
我的问题是:
有没有人这样做过?
更好的是,是否有一个致力于此的社区?
如果脚本在某处,我宁愿为它们做出贡献而不是重写它们。
只是一个例子:
在人员的OLAP多维数据集中,我可以按名字向下钻取,选择钻取“Remi”,检查此名称的使用区域,然后查看所有区域的性别,以查看此名称的受欢迎程度女孩和男孩们喜欢的地方。对于他们每个人,我可以随着时间深入了解趋势。如果没有BI工具,您无法进行此类调查,或者需要几天而不是几秒钟。
答案 0 :(得分:1)
查看Mahout,这是一个分布式机器学习库。其中一个例子使用维基百科的转储
https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org
我不熟悉商业智能的确切细节,但机器学习是关于找到相关模式和将信息聚集在一起。至少这应该给出一个将wiki加载到内存中并使用数据做一些简单而不那么简单的事情的例子。
答案 1 :(得分:0)
您可以设置virtuoso服务器(有一个开源版本)并在本地计算机中加载dbpedia data sets并使用virtuoso作为带有SPARQL的“SQL DB”(它具有jdbc接口) )
从您的示例中,您只能加载“ontology infobox *”和“raw infobox *”数据集
答案 2 :(得分:0)
您想要一个开源OLAP服务器吗?
您是否需要为数据集设置数据库,或者使用文件?我们(在www.icCube.com上)不需要DB来设置我们的立方体。
您的数据集有多大?