应用错误收集

我正在做一个识别问题（面孔），并试图减小问题的大小。我最初是在120个维度的特征坐标系中训练数据，但是通过PCA，我发现了一个更好的PC坐标系，只需要20个维度，同时仍可传递95％的数据。

我开始认为按定义识别是分类问题。 n空间中属于同一对象/面/所有对象的点将聚类。例如，如果训练数据中有5个相同个体的实例，它们将聚类，并且可以使用k均值在数值上定义该聚类的中点。

我有100,000个观察值，每个人都用5-10张头像表示，这意味着与其将一个新输入与20个空间中的100,000点进行比较，不如将其与10,000-20,000个质心进行比较。可以这样使用k-means还是我误解了？ k显然是不确定的，但我一直在寻找找到最佳k的方法。

我的特定识别问题不是使用神经网络，而是使用点之间的简单算术欧氏距离。