如何生成具有特定聚类属性的多维数据?

时间:2015-03-21 05:30:52

标签: dataset elki

在研究论文的第5.A部分,研究人员使用了以下合成数据集:

  1. GAUSS由六个具有同一性的高斯聚类组成 协方差,每个在五个维度上有500个点。其 means是随机分配的值,从0到10 in 每个维度。集群手段至少需要 四个欧几里德距离分开,并且需要点数 在他们的集群平均值的两个欧几里德距离内。
  2. PAIRED由三对高斯簇组成 身份协方差,每个在五个维度上有500个点。 每对高斯都被放置在一个平均值附近 从零开始在每个维度中随机分配的值 到20,使欧几里德之间的距离成对 高斯星团在4到8之间,而且 非配对高斯之间的欧几里德距离为 至少12.此外,要点必须在两个以内 它们的簇的欧几里德距离意味着。

  3. ELONG由五个具有同一性的高斯簇组成 协方差,每个在五个维度上有300个点。其 平均值被随机分配一个从零到50英寸的值 每个维度。在不同的方面创建细长的簇 维度,我们乘以单个,不同的值 每个群集的维度为15.群集均值 要求至少相隔五欧几里德距离。

  4. UNIFORM由八个集群组成,每个集群有300个集群 三维点。每个集群都有自己的观点 均匀分布在一个随机的3x3x3盒子里 在10x10x10立方体中分配中心。集群中心是 要求相隔五欧几里德。
  5. RINGS由以(0,0)为中心的2个环簇组成, 一个较大的外圈,半径为2,内圈较小 半径1. 400点均匀间隔度数 内环。

  6. http://postimg.org/image/jo4rjztjz/


    我没有这些数据集。我试图联系研究员,但没有用。

    如何创建这些数据集?是否有任何工具来创建它们?

    Original Paper can be found here

1 个答案:

答案 0 :(得分:1)

有关ELKI数据集生成器的文档和示例,请访问: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator

ELKI中的生成器当前不能生成环形簇(仅球形),并且在某个最大距离处也不支持剪切点。 它为每个维度独立生成的独立样本。一次使用多个维度的唯一支持的操作是旋转操作。根据与均值的距离生成环形簇或剪切簇意味着当前不支持的值的依赖形式。

您需要联系该出版物的作者,或者 自己编写程序来生成此类数据。这并不难;但是生成这样的合成数据可能不值得 - 在我看来这不是一个现实的场景。