应用错误收集

关联社会网络FOAF数据集的规则挖掘

时间：2011-04-18 09:01:20

标签： artificial-intelligence machine-learning data-mining semantic-web foaf

我正在开发一个名为“从社交网络数据中发现关联规则：将数据挖掘引入语义Web”的项目。任何人都可以建议一个良好的算法源（及其代码。我听说它可以用Perl和R包实现）从社交网络数据库中找到关联规则吗？

可以通过以下链接获取数据库的快照：https://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

数据集可在以下链接中找到：http://ebiquity.umbc.edu/get/a/resource/82.zip

我对这个项目进行了很多搜索，但遗憾的是还找不到有用的东西。我发现以下链接有点相关：

犯罪数据：http://www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

我们非常感谢您的帮助。

谢谢，

3 个答案:

答案 0 :(得分：4)

嗯，原始关联规则算法（最初在IBM Almaden研究中心开发）中使用最广泛的实现是Apriori和Eclat，特别是Christian Borgelt的C实现。

（不熟悉关联规则的人员简介（又名“频繁项目集”或“市场篮子分析”）。关联规则的原型申请正在分析消费者交易，例如超市数据：购买波兰的购物者之间香肠中有多少人还购买黑面包？）

我会推荐统计平台，R.它是免费的开源软件，它的软件包存储库包含（至少）四个仅针对关联规则的库，所有这些库都有很好的文档 - 四个软件包中的三个包括手册和单独的 Vignette （带代码示例的非正式散文文档）。手册和小插图都包含R代码中的大量示例。

我使用了以下四个套餐中的三个，我可以高度推荐这三个套餐。其中包括Eclat和Apriori的绑定。这些库以R'包'的形式发布，可在CRAN（R的主要包存储库）上获得。 R的基本安装和设置是微不足道的 - 有Mac，Linux和Windows的二进制文件，可从上面的链接获得。同样，软件包安装/集成就像您对集成平台的期望一样简单（尽管下面列出的四个软件包中的每个软件包都没有为每个操作系统提供二进制文件）。

所以在 CRAN 上，你会发现这些包都只针对关联规则：

arules
的 arulesNBMiner

的 arulesSequences

arulesViz

这组四个R包由用于四种不同关联规则实现的R绑定以及可视化库组成。

第一个包 arules ，包括用于Eclat和Apriori的R绑定。第二个是 arulesNBMiner ，是Michael Hahsler的关联规则算法 NB-frequent itemsets 的绑定。第三个 arules序列，是Mohammed Zaki的 cSPADE 的绑定。

最后一个特别有用，因为它是一个可视化库，用于绘制前三个包中任何一个的输出。对于您的社交网络研究，我怀疑您会发现图形可视化 - 即，节点（数据集中的用户）和边缘（它们之间的连接）的显式可视化。

答案 1 :(得分：2)

这比http://en.wikipedia.org/wiki/Association_rule_learning宽一点，但希望有用。

早期的FOAF工作可能很有趣（SVD / PCA等）：

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to-2005 http://datamining.sztaki.hu/files/snakdd.pdf

http://www.amazon.com/Understanding-Complex-Datasets-Decompositions-Knowledge/dp/1584888326的第4章也致力于对图数据结构应用矩阵分解技术;强烈推荐。

最后，Apache Mahout是大规模数据挖掘，机器学习等的自然选择，https://cwiki.apache.org/MAHOUT/dimensional-reduction.html

答案 2 :(得分：0)

如果您需要一些Java代码，可以查看我的website以获取SPMF软件。它为频繁项集挖掘，关联挖掘，序列模式挖掘等提供了超过45种算法的源代码。

此外，它不仅提供最流行的算法。它还提供了许多变体，例如挖掘稀有项目集，高效用项集，不确定项集，非冗余关联规则，封闭关联规则，间接关联规则，top-k关联规则等等......