如何将我的hashmap数据写入arff文件

时间:2016-03-04 21:16:51

标签: java cluster-analysis weka arff

我想根据教育领域聚集简历的集合 所以我将简历(CV)从非结构化格式转换为半结构格式,我从教育标签中获取数据,

<education>data data data</education>

结果是每个简历都有一个候选概念(教育领域) 例如:

resume1: computer science, computer security 

resume2: CSE, Networking 

然后我将此数据转换为vector space model并将其存储在哈希映射中(取决于简历中每个术语的占用率,即in或out&lt; 1,0&gt;)

resume1  [1, 0, 1]
resume2 [0, 1, 1]

现在我想集中这些数据,每个简历包含IT字段在同一个集群中,例如Art恢复在同一个集群中

我读过有关用于群集数据的Weka。但Weka只支持arff输入格式。 我如何编写我存储在arff文件中的hashmap中的数据?!! 以及Weka如何仅对数值数据进行计算,即(简历中出现的术语)聚类文本数据,即(简历的名称)?!! 对不起,如果我的问题是胡说八道,但我对Weka完全不熟悉,我希望你能帮助我...

修改

我将数据写入arff文件(只是矢量数据),最后我从 stack overFlow 中读了几个问题后,我现在能够使用WEKA并应用SimpleKMeans聚类这是我的输出

Instance 1 -> Cluster 4 
Instance 2 -> Cluster 0 
Instance 3 -> Cluster 0 
Instance 4 -> Cluster 0 
Instance 5 -> Cluster 0 
Instance 6 -> Cluster 0 
Instance 7 -> Cluster 3 
Instance 8 -> Cluster 0 
Instance 9 -> Cluster 2 
Instance 10 -> Cluster 4

我的新问题是

而不是查看实例#我想显示简历的名称 如果我将简历名称作为属性除了矢量数据之外,我可以查看简历名称而不是实例#??如果是,我怎么能这样做

0 个答案:

没有答案