将HOG + SVM培训应用于网络摄像头以进行对象检测

时间:2017-07-18 19:11:28

标签: python opencv machine-learning scikit-learn computer-vision

我通过从正面和负面数据集中提取HOG特征来训练我的SVM分类器

from sklearn.svm import SVC
import cv2
import numpy as np

hog = cv2.HOGDescriptor()


def hoggify(x,z):

    data=[]

    for i in range(1,int(z)):
        image = cv2.imread("/Users/munirmalik/cvprojek/cod/"+x+"/"+"file"+str(i)+".jpg", 0)
        dim = 128
        img = cv2.resize(image, (dim,dim), interpolation = cv2.INTER_AREA)
        img = hog.compute(img)
        img = np.squeeze(img)
        data.append(img)

    return data

def svmClassify(features,labels):
    clf=SVC(C=10000,kernel="linear",gamma=0.000001)
    clf.fit(features,labels)

    return clf

def list_to_matrix(lst):
    return np.stack(lst) 

我想应用该培训,以便程序能够检测到我的自定义对象(椅子)。

我已经为每个套装添加了标签;接下来需要做什么?

1 个答案:

答案 0 :(得分:3)

您已经拥有三件最重要的部件供您使用。 hoggify创建一个HOG描述符列表 - 每个图像一个。注意,用于计算描述符的预期输入是灰度图像,并且描述符作为具有1列的2D数组返回,这意味着HOG描述符中的每个元素具有其自己的行。但是,您正在使用np.squeeze删除单例列并将其替换为1D numpy数组,所以我们在这里很好。然后,您可以使用list_to_matrix将列表转换为numpy数组。完成此操作后,您可以使用svmClassify来最终训练您的数据。这假设您已在1D labels数组中拥有numpy。在训练SVM之后,您将使用SVC.predict方法,在给定输入HOG功能的情况下,它会对图像是否属于椅子进行分类。

因此,您需要执行的步骤是:

  1. 使用hoggify创建HOG描述符列表,每个图像一个。看起来输入x是您所谓的椅子图像的前缀,而z表示您要加载的图像总数。请记住range不包括结束值,因此您可能希望在+ 1之后添加int(z)(即int(z) + 1)以确保包含结尾。我不确定是不是这样,但我想把它扔出去。

    x = '...' # Whatever prefix you called your chairs
    z = 100 # Load in 100 images for example
    lst = hoggify(x, z)
    
  2. 将HOG描述符列表转换为实际矩阵:

    data = list_to_matrix(lst)
    
  3. 训练您的SVM分类器。假设您已将标签存储在labels中,其中值0表示不是主席,而1表示主席且它是1D numpy数组:

    labels = ... # Define labels here as a numpy array
    clf = svmClassify(data, labels)
    
  4. 使用SVM分类器执行预测。假设您想要使用分类器测试测试图像,则需要执行与训练数据相同的处理步骤。我假设这是hoggify所做的,您可以指定不同的x来表示要使用的不同集合。指定一个新变量xtest以指定此不同的目录或前缀,以及您需要的图片数量,然后使用hoggifylist_to_matrix相结合来获取您的功能:

    xtest = '...' # Define new test prefix here
    ztest = 50 # 50 test images
    lst_test = hoggify(xtest, ztest)
    test_data = list_to_matrix(lst_test)
    pred = clf.predict(test_data)
    

    pred将包含一系列预测标签,每个标签对应一个测试图像。如果需要,您可以查看您的SVM对培训数据的效果如何,因此您已经可以使用此功能,只需在步骤2中再次使用data

    pred_training = clf.predict(data)
    

    pred_training将包含一系列预测标签,每个培训图片一个。

  5. 如果您最终希望将其与网络摄像头一起使用,则过程将使用VideoCapture对象并指定连接到计算机的设备的ID。通常只有一个网络摄像头连接到您的计算机,因此使用ID为0.一旦您执行此操作,过程将使用循环,抓取帧,将其转换为灰度,因为HOG描述符需要灰度图像,计算描述符,然后对图像进行分类。

    这样的东西会起作用,假设你已经训练了你的模型并且你已经创建了一个HOG描述符对象:

    cap = cv2.VideoCapture(0)
    dim = 128 # For HOG
    
    while True:
        # Capture the frame
        ret, frame = cap.read()
    
        # Show the image on the screen
        cv2.imshow('Webcam', frame)
    
        # Convert the image to grayscale
        gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    
        # Convert the image into a HOG descriptor
        gray = cv2.resize(gray, (dim, dim), interpolation = cv2.INTER_AREA)
        features = hog.compute(gray)
        features = features.T # Transpose so that the feature is in a single row
    
        # Predict the label
        pred = clf.predict(features)
    
        # Show the label on the screen
        print("The label of the image is: " + str(pred))
    
        # Pause for 25 ms and keep going until you push q on the keyboard
        if cv2.waitKey(25) == ord('q'):
            break
    
    cap.release() # Release the camera resource
    cv2.destroyAllWindows() # Close the image window
    

    上述过程读入图像,将其显示在屏幕上,将图像转换为灰度,以便我们可以计算其HOG描述符,确保数据与您训练的SVM兼容的单行,然后我们预测它标签。我们将它打印到屏幕上,我们在下一帧读取之前等待25 ms,因此我们不会使CPU过载。此外,您可以通过按键盘上的 q 键随时退出程序。否则,该程序将永远循环。完成后,我们将相机资源释放回计算机,以便可以将其用于其他过程。