Weka,如何使用聚类方法对类似的字符串模式进行分组

时间:2017-07-17 07:47:13

标签: string attributes cluster-analysis weka

我正在使用Weka的聚类方法对类似的字符串模式进行分组。我首先使用了weka的函数“stringtowordVector”,然后我直接使用了一些聚类方法,但是我无法得到正确的结果,有人能给我一些正确的方法来分组这类数据吗?这只是我数据的一小部分:

@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk

实际上,这些数据的每一行代表一个提取的频繁模式(通过数据挖掘算法),每个字母ac或e ...代表一个属性,但每个模式(每一行)都没有相同的数量属性,那么我如何使用聚类方法对相似的模式进行分组?非常感谢你!!!期待您的回复:)

大卫

1 个答案:

答案 0 :(得分:0)

每个字符串都不同,所以"字符串到字向量"会给他们不同的载体。请阅读"一揽子单词模型"详情。

您可以尝试使用Levenshtein距离进行聚类,但我宁愿尝试为您的问题设计一些良好的功能。