Python-熊猫数据框或数据类实例数组,用于读取数据?

时间:2019-07-13 15:40:33

标签: python pandas numpy python-dataclasses

我相对较不熟悉使用Python进行数据分析,因此我试图确定一种最实用,最有用的方式来读取数据,以便可以对其进行索引并在计算中使用它。我有很多以np.arrays形式出现的图像,每个图像都有一组对应的数据,例如x和y坐标,大小,过滤器编号等。我只想确保每组数据及其分组对应的图像。我的第一个想法是将数据粘贴在数据类实例的np.array中(其中数组的每个元素都是包含我所有数据的实例)。我的第二个想法是熊猫数据框。

我的直觉告诉我,使用数据框更有意义。 np.arrays是否可以很好地存储在数据帧中?每种方法的优点/缺点是什么?如果我需要经常从它们中提取数据,并且始终需要确保数据可以与其对应的图像匹配,那将是最好的选择?

我必须读入哪些变量:x_coord-浮点数,y_coord-浮点数,过滤器-整数,图像-np.ndarray。

我一直试图将图像阵列粘贴到pandas数据框中,但是使用.loc对其进行索引时,运行Jupyter Notebook单元非常慢。使用.from_dict()填充数据框也非常慢。我猜数据帧不是要保存np.ndarrays吗?

我最大的担忧是簿记和索引编制的便捷性-我如何做才能始终确保可以检索对应图像的元数据?数据应采用哪种形式,以便我可以轻松提取图像及其元数据,或具有相同过滤器编号的所有图像,等等。

0 个答案:

没有答案
相关问题