了解数据类型和属性值

时间:2016-02-16 21:46:26

标签: categories numeric numerical-methods data-analysis categorical-data

我想了解以下数据的以下数据类型和属性值,了解它可以正确决定选择分类或聚类算法。

我的数据由100个文件夹组成,每个文件夹中包含图像,所以我根据内容选择了一些内容来对这些图像进行分类 像{海,天空,狮子......等}

                              categorical- attributes 

folder-name    total images      sea         sky      food     animals   
folder1            100            10          2        0         5
folder2            20             0           1        15        3   
etc. 

总图像指的是该文件夹中的总图像,每个类别矢量中的数字是在每个文件夹中找到的图像的频率,例如在文件夹110中找到海图片(10张图像是海照片)等。< / p>

我知道这里的值是离散的,但是什么是属性{interval,nominal,ordinal} 值已根据简单比较分组为folder1.image1 = sea如果是,则1然后为0然后我已将图像值分组以声明上表, 如果将频率值转换为序数,计算频率百分比,如果其10%则为1,则20%则为2,这是正确的, 任何建议谢谢。

1 个答案:

答案 0 :(得分:0)

正如我在评论中所说,你实现了不同的聚类方法:

  1. 欧几里德距离(假设发现10%最常用的术语并相应地构建空间(X ... n轴)并测量文档(文件夹)之间的距离
  2. Jaccard index
  3. CLIQUE看起来很有趣,但我对它不够熟悉。
  4. tf-idf适用于发现非常用术语(文件),并声称具有这些术语的文档类似且属于同一类。
  5. 正如我之前提到的,我会从一些非常简单的事情开始,例如按术语排列或欧几里德距离来“感觉”数据。随着您的进行,您将获得更多想法