Question

我正在使用Weka的聚类方法对类似的字符串模式进行分组。我首先使用了weka的函数“stringtowordVector”，然后我直接使用了一些聚类方法，但是我无法得到正确的结果，有人能给我一些正确的方法来分组这类数据吗？这只是我数据的一小部分：

@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk

实际上，这些数据的每一行代表一个提取的频繁模式（通过数据挖掘算法），每个字母ac或e ...代表一个属性，但每个模式（每一行）都没有相同的数量属性，那么我如何使用聚类方法对相似的模式进行分组？非常感谢你！！！期待您的回复：）

大卫

Answer 1

每个字符串都不同，所以＆＃34;字符串到字向量＆＃34;会给他们不同的载体。请阅读＆＃34;一揽子单词模型＆＃34;详情。

您可以尝试使用Levenshtein距离进行聚类，但我宁愿尝试为您的问题设计一些良好的功能。

Weka，如何使用聚类方法对类似的字符串模式进行分组

1 个答案: