应用错误收集

维基百科数据上的商业智能（BI）

时间：2010-08-23 07:29:14

标签： business-intelligence wikipedia dbpedia

说明：
我是BI瘾君子，我想开发一个项目来深入了解维基百科的数据我会编写脚本来从dbpedia中提取数据（可能从人物文章开始）并将其加载到人员表中。

我的问题是：
有没有人这样做过？更好的是，是否有一个致力于此的社区？如果脚本在某处，我宁愿为它们做出贡献而不是重写它们。

只是一个例子：
在人员的OLAP多维数据集中，我可以按名字向下钻取，选择钻取“Remi”，检查此名称的使用区域，然后查看所有区域的性别，以查看此名称的受欢迎程度女孩和男孩们喜欢的地方。对于他们每个人，我可以随着时间深入了解趋势。如果没有BI工具，您无法进行此类调查，或者需要几天而不是几秒钟。

3 个答案:

答案 0 :(得分：1)

查看Mahout，这是一个分布式机器学习库。其中一个例子使用维基百科的转储

https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org

我不熟悉商业智能的确切细节，但机器学习是关于找到相关模式和将信息聚集在一起。至少这应该给出一个将wiki加载到内存中并使用数据做一些简单而不那么简单的事情的例子。

答案 1 :(得分：0)

您可以设置virtuoso服务器（有一个开源版本）并在本地计算机中加载dbpedia data sets并使用virtuoso作为带有SPARQL的“SQL DB”（它具有jdbc接口））

从您的示例中，您只能加载“ontology infobox *”和“raw infobox *”数据集

答案 2 :(得分：0)

您想要一个开源OLAP服务器吗？

您是否需要为数据集设置数据库，或者使用文件？我们（在www.icCube.com上）不需要DB来设置我们的立方体。

您的数据集有多大？