使用多进程附加熊猫数据框

时间:2018-08-19 18:36:40

标签: python pandas

在dir(image)中大约有506381个图像,我想将图像的形状写入数据框以进行分析,并进一步使用文件名映射图像特征。

import pandas as pd
import cv2
import os
from tqdm import tqdm

images = os.listdir('./image')
BASEDIR = 'image/'
image_info = pd.DataFrame(columns=['Image Name', '0', '1', '2'])

for i in tqdm(range(len(images))):
    img = cv2.imread(BASEDIR + images[i])
    list_ = [(images[i], img.shape[0], img.shape[1], img.shape[2])]
    try:
        image_info = image_info.append(pd.DataFrame(list_ ,columns=['Image Name', '0', '1', '2']), ignore_index=True)
    except:
        pass

image_info.to_csv('data/image_info.csv', ignore_index=True)

到目前为止,这是我的代码,因为我正在读取每个图像,所以处理数据需要很多时间。

如何实现多进程或合并数据,以便可以使用CPU中的所有内核。

0 个答案:

没有答案