我正在使用ELKI对CSV文件中的数据进行聚类
我使用
-resulthandler ResultWriter
-out folder/
保存输出数据
但是作为输出,我有一些奇怪的索引
ID=2138 0.1799 0.2761
ID=2137 0.1797 0.2778
ID=2136 0.1796 0.2787
ID=2109 0.1161 0.2072
ID=2007 0.1139 0.2047
尽管我的训练样本少于100个,但ID仍超过2000
答案 0 :(得分:1)
DBID是内部的;该文档明确指出,您不应对它们进行过多假设,因为其实现 可能会发生变化。完全将它们写入输出的唯一原因是某些方法(例如OPTICS)可能需要使用此唯一ID交叉引用对象。
因为它们是唯一的标识符,所以它们通常会连续递增。下次您在MiniGUI中单击“运行”时,将获得下一个n个ID。很明显,您单击了多次运行。
ELKI DBID文档中的“技巧和窍门”可能会回答您的基本问题-如何将映射DBID用于输入文件的行号。最好的方法是如果要拥有对象标识符,请使用标识符列(并将其配置为外部标识符)自己分配对象标识符。
有关更多信息,请参见文档:https://elki-project.github.io/dev/dbids