图像聚类由于它在python中的相似性

时间:2016-08-24 12:31:42

标签: python machine-learning computer-vision cluster-analysis

我有一系列照片,我想区分相似照片的集群。我应该使用哪些图像功能和哪种算法来解决我的任务?

2 个答案:

答案 0 :(得分:4)

这是一个过于宽泛的问题。

一般来说,您可以使用任何clustering mechanism,例如一种流行的k-means。要准备数据以进行聚类,您需要将集合转换为数组X,其中每一行都是一个示例(图像),每列都是一个功能。

主要问题 - 您的功能应该是什么。如果不知道你想要完成什么,就很难回答。如果您的图像很小且尺寸相同,则可以将每个像素作为一个特征。如果您有任何元数据并希望使用它进行排序 - 您可以将元数据中的每个标记作为一项功能。

现在,如果您确实需要在图像之间找到一些模式,则必须应用额外的处理层,例如convolutional neural network,这实际上允许您从图像的不同部分提取特征。您可以将其视为一个过滤器,它将每个图像转换为8x8矩阵,然后相应地可以用作阵列X中具有64个不同特征的行进行聚类。

答案 1 :(得分:3)

我遇到了同样的问题,我想出了以下解决方案:

  1. 从Keras(此处为VGG16)导入预先训练的模型
  2. 提取每张图像的特征
  3. 执行kmeans
  4. 通过使用群集标签进行复制导出

这是我的代码,部分受this post的激励。

from keras.preprocessing import image
from keras.applications.vgg16 import VGG16
from keras.applications.vgg16 import preprocess_input
import numpy as np
from sklearn.cluster import KMeans
import os, shutil, glob, os.path
from PIL import Image as pil_image
image.LOAD_TRUNCATED_IMAGES = True 
model = VGG16(weights='imagenet', include_top=False)

# Variables
imdir = 'C:/indir/'
targetdir = "C:/outdir/"
number_clusters = 3

# Loop over files and get features
filelist = glob.glob(os.path.join(imdir, '*.jpg'))
filelist.sort()
featurelist = []
for i, imagepath in enumerate(filelist):
    print("    Status: %s / %s" %(i, len(filelist)), end="\r")
    img = image.load_img(imagepath, target_size=(224, 224))
    img_data = image.img_to_array(img)
    img_data = np.expand_dims(img_data, axis=0)
    img_data = preprocess_input(img_data)
    features = np.array(model.predict(img_data))
    featurelist.append(features.flatten())

# Clustering
kmeans = KMeans(n_clusters=number_clusters, random_state=0).fit(np.array(featurelist))

# Copy images renamed by cluster 
# Check if target dir exists
try:
    os.makedirs(targetdir)
except OSError:
    pass
# Copy with cluster name
print("\n")
for i, m in enumerate(kmeans.labels_):
    print("    Copy: %s / %s" %(i, len(kmeans.labels_)), end="\r")
    shutil.copy(filelist[i], targetdir + str(m) + "_" + str(i) + ".jpg")