Question

我想根据教育领域聚集简历的集合所以我将简历（CV）从非结构化格式转换为半结构格式，我从教育标签中获取数据，

<education>data data data</education>

结果是每个简历都有一个候选概念（教育领域）例如：

resume1: computer science, computer security 

resume2: CSE, Networking

然后我将此数据转换为vector space model并将其存储在哈希映射中（取决于简历中每个术语的占用率，即in或out＆lt; 1,0＆gt;）

resume1  [1, 0, 1]
resume2 [0, 1, 1]

现在我想集中这些数据，每个简历包含IT字段在同一个集群中，例如Art恢复在同一个集群中

我读过有关用于群集数据的Weka。但Weka只支持arff输入格式。我如何编写我存储在arff文件中的hashmap中的数据？!! 以及Weka如何仅对数值数据进行计算，即（简历中出现的术语）聚类文本数据，即（简历的名称）？!! 对不起，如果我的问题是胡说八道，但我对Weka完全不熟悉，我希望你能帮助我...

修改

我将数据写入arff文件（只是矢量数据），最后我从 stack overFlow 中读了几个问题后，我现在能够使用WEKA并应用SimpleKMeans聚类这是我的输出

Instance 1 -> Cluster 4 
Instance 2 -> Cluster 0 
Instance 3 -> Cluster 0 
Instance 4 -> Cluster 0 
Instance 5 -> Cluster 0 
Instance 6 -> Cluster 0 
Instance 7 -> Cluster 3 
Instance 8 -> Cluster 0 
Instance 9 -> Cluster 2 
Instance 10 -> Cluster 4

我的新问题是

而不是查看实例＃我想显示简历的名称如果我将简历名称作为属性除了矢量数据之外，我可以查看简历名称而不是实例＃??如果是，我怎么能这样做

如何将我的hashmap数据写入arff文件

修改

0 个答案: