Question

我正在使用ELKI对CSV文件中的数据进行聚类

我使用

-resulthandler ResultWriter
-out folder/

保存输出数据

但是作为输出，我有一些奇怪的索引

ID=2138 0.1799 0.2761
ID=2137 0.1797 0.2778
ID=2136 0.1796 0.2787
ID=2109 0.1161 0.2072
ID=2007 0.1139 0.2047

尽管我的训练样本少于100个，但ID仍超过2000

Answer 1

DBID是内部的；该文档明确指出，您不应对它们进行过多假设，因为其实现可能会发生变化。完全将它们写入输出的唯一原因是某些方法（例如OPTICS）可能需要使用此唯一ID交叉引用对象。

因为它们是唯一的标识符，所以它们通常会连续递增。下次您在MiniGUI中单击“运行”时，将获得下一个n个ID。很明显，您单击了多次运行。

ELKI DBID文档中的“技巧和窍门”可能会回答您的基本问题-如何将映射DBID用于输入文件的行号。最好的方法是如果要拥有对象标识符，请使用标识符列（并将其配置为外部标识符）自己分配对象标识符。