在研究论文的第5.A部分,研究人员使用了以下合成数据集:
PAIRED由三对高斯簇组成 身份协方差,每个在五个维度上有500个点。 每对高斯都被放置在一个平均值附近 从零开始在每个维度中随机分配的值 到20,使欧几里德之间的距离成对 高斯星团在4到8之间,而且 非配对高斯之间的欧几里德距离为 至少12.此外,要点必须在两个以内 它们的簇的欧几里德距离意味着。
ELONG由五个具有同一性的高斯簇组成 协方差,每个在五个维度上有300个点。其 平均值被随机分配一个从零到50英寸的值 每个维度。在不同的方面创建细长的簇 维度,我们乘以单个,不同的值 每个群集的维度为15.群集均值 要求至少相隔五欧几里德距离。
http://postimg.org/image/jo4rjztjz/
我没有这些数据集。我试图联系研究员,但没有用。
如何创建这些数据集?是否有任何工具来创建它们?
答案 0 :(得分:1)
有关ELKI数据集生成器的文档和示例,请访问: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator
ELKI中的生成器当前不能生成环形簇(仅球形),并且在某个最大距离处也不支持剪切点。 它为每个维度独立生成的独立样本。一次使用多个维度的唯一支持的操作是旋转操作。根据与均值的距离生成环形簇或剪切簇意味着当前不支持的值的依赖形式。
您需要联系该出版物的作者,或者 自己编写程序来生成此类数据。这并不难;但是生成这样的合成数据可能不值得 - 在我看来这不是一个现实的场景。