string - 使用ELKI对字符串数据进行聚类

实际上非常简单：

A ）写一个足以输入文件格式的Parser（为什么要尝试重用一个为其编写的解析器？带有标签的数字向量？），可能是子类AbstractStreamingParser，产生了所需数据类型的关系（可能只需要使用String。如果你想要更一般TokenSequence可能对于这些距离来说，这是一个更合适的概念。字符串只是最简单的情况。

B ）基于此向量类型而不是DBID实现DistanceFunction，即PrimitiveDistanceFunction<String>。同样，子类化AbstractPrimitiveDistanceFunction可能是最容易的事情。

出于性能原因，您可能还需要查看索引算法以检索例如最有效的k个最相似的字符串。我不确定字符串编辑距离和levenshtein距离存在哪种索引结构。

一位同事的学生显然有一些工作令牌编辑距离，但我还没有看到或审查过这些代码。在处理日志文件时，他可能会使用基于令牌的方法而不是字符。

使用ELKI对字符串数据进行聚类

1 个答案: