我想根据教育领域聚集简历的集合 所以我将简历(CV)从非结构化格式转换为半结构格式,我从教育标签中获取数据,
<education>data data data</education>
结果是每个简历都有一个候选概念(教育领域) 例如:
resume1: computer science, computer security
resume2: CSE, Networking
然后我将此数据转换为vector space model
并将其存储在哈希映射中(取决于简历中每个术语的占用率,即in或out&lt; 1,0&gt;)
resume1 [1, 0, 1]
resume2 [0, 1, 1]
现在我想集中这些数据,每个简历包含IT字段在同一个集群中,例如Art恢复在同一个集群中
我读过有关用于群集数据的Weka
。但Weka只支持arff
输入格式。
我如何编写我存储在arff文件中的hashmap中的数据?!!
以及Weka如何仅对数值数据进行计算,即(简历中出现的术语)聚类文本数据,即(简历的名称)?!!
对不起,如果我的问题是胡说八道,但我对Weka完全不熟悉,我希望你能帮助我...
我将数据写入arff文件(只是矢量数据),最后我从 stack overFlow 中读了几个问题后,我现在能够使用WEKA并应用SimpleKMeans
聚类这是我的输出
Instance 1 -> Cluster 4
Instance 2 -> Cluster 0
Instance 3 -> Cluster 0
Instance 4 -> Cluster 0
Instance 5 -> Cluster 0
Instance 6 -> Cluster 0
Instance 7 -> Cluster 3
Instance 8 -> Cluster 0
Instance 9 -> Cluster 2
Instance 10 -> Cluster 4
我的新问题是
而不是查看实例#我想显示简历的名称 如果我将简历名称作为属性除了矢量数据之外,我可以查看简历名称而不是实例#??如果是,我怎么能这样做