我有一个分类相关的图像数据,有15个不同的类,每个类有五个功能集。这五个功能集包括颜色功能,筛选功能等。最多5个不同的功能。每个类中的实例/样本的平均数量约为300(从200到400不等)。特征集的维数为512,1296,5376,5376和22950.样本总数接近4500。
(为清楚起见:假设一个类和一个颜色特征,我有一个220行(样本)的矩阵,每行是5376维向量,因此220 x 5376维矩阵表示一个类和一个特征)。 / p>
现在,如果我在单个类别/类上应用PCA,那么我将获得小于270的所有特征集的缩小维度(n_components = min(n_samples,feature_dimension))。
如果我在4500张图像的完整数据集上应用PCA(连接15个类别的所有样本),当然在一个特征集上,比如颜色..那么我将获得一个小于min的减小尺寸的数据集( 4500,feature_dimension)。
申请PCA的最佳方式是什么?在类别明智的数据(每个功能)或一个功能的完整数据集上?请注意,我需要确定主要组件的数量以考虑90%以上的差异。
很高兴得到一些帮助!!
答案 0 :(得分:0)
我建议您尝试这两种方法。将数据转储到ARFF文件(类似于带有一些标题的CSV)并在Weka(http://www.cs.waikato.ac.nz/ml/weka/)中打开它。您将能够轻松地探索不同的场景,可视化降维,甚至检查一些特征选择算法。