在R中使用PAM聚类事务数据?

时间:2013-11-07 23:16:14

标签: r cluster-analysis transactional pam

我需要在不同的组中对多组交易进行分组。  我的数据在文本文件中格式为:

T1  17  20  22  35  37  60  62    
T2  39  51  53  54  57  65  73    
T3  17  20  21  22  34  37  62    
T4  20  22  54  57  65  73  45    
T5  20  54  57  65  73  75  80    
T6  2   20  54  57  59  63  71    
T7  2   20  22  57  59  71  66    
T8  17  20  28  29  30  34  35    
T9  16  20  28  32  54  57  65    
T10 16  20  22  28  57  59  71    
-    
-

等等,超过5000行。 每行代表一次交易。

到目前为止我做了什么:

txIn<-read.transactions("data2.txt",format="basket",sep=" ") 
d<-dissimilarity(txIn,method="Jaccard")
 library("cluster")
 clustersA<-pam(d,k=100)
 txOut <- paste("txOu", ".txt") 
write.table(clustersA$clustering, file="txOu",sep=" ")

但该文件将事务#与其集群存储在一起,如:

"x"
"1" 1
"2" 1
"3" 1
"4" 1
"5" 1
"6" 2
"7" 2
"8" 2
"9" 1
"10" 2
-
-

我需要保存它,例如:

群集1:

T1  17  20  22  35  37  60  62    
T2  39  51  53  54  57  65  73    
T3  17  20  21  22  34  37  62    
T4  20  22  54  57  65  73  45    
T5  20  54  57  65  73  75  80

T9  16  20  28  32  54  57  65

群集2:

T6  2   20  54  57  59  63  71    
T7  2   20  22  57  59  71  66    
T8  17  20  28  29  30  34  35        
T10 16  20  22  28  57  59  71    
    -
    -

等等, 因为我想单独处理每个集群。

请我搜索了很多,我需要任何信息,例如,doc,任何帮助。

1 个答案:

答案 0 :(得分:0)

您确定要进行群集吗?

对我而言,听起来您可能对频繁项目集挖掘更感兴趣。