我正在做一个识别问题(面孔),并试图减小问题的大小。我最初是在120个维度的特征坐标系中训练数据,但是通过PCA,我发现了一个更好的PC坐标系,只需要20个维度,同时仍可传递95%的数据。
我开始认为按定义识别是分类问题。 n空间中属于同一对象/面/所有对象的点将聚类。例如,如果训练数据中有5个相同个体的实例,它们将聚类,并且可以使用k均值在数值上定义该聚类的中点。
我有100,000个观察值,每个人都用5-10张头像表示,这意味着与其将一个新输入与20个空间中的100,000点进行比较,不如将其与10,000-20,000个质心进行比较。可以这样使用k-means还是我误解了? k显然是不确定的,但我一直在寻找找到最佳k的方法。
我的特定识别问题不是使用神经网络,而是使用点之间的简单算术欧氏距离。