我正在开发一个应用程序,它可以为图像数据集中的每个图像提取一些信息,并存储这些数据以供将来使用。我遇到的问题是如何正确存储这些数据。为数据集中的每个图像创建单个注释文件(我使用JSON文件)或创建包含所有提取数据的大型唯一文件更好吗?
我提取的信息类型在图像与图像之间相似但不相等。图像的数据集可以是巨大的,> 1milion图像。
如果相关,我在Linux或MacOS上使用Python。
答案 0 :(得分:0)
我会在每个数据集中使用单个文档(文件或NoSQL数据库)。
如果你有> 100万个图像,每个图像单个文件将意味着> 100万个文件/文件。
不是易于管理或操纵的东西。
单个文件/文档更易于管理和搜索。
我还考虑使用NoSQL数据库来存储JSON文档。
编辑:
在考虑了这些评论之后,我不得不说你可能需要在一定数量的数据上切断JSON文件,从而导致每个数据集只有几个文件。
对于损坏的文件而言,您可能会在任何存储,甚至是数据库文件上运行,这就是我们拥有备份和副本的原因。
您始终可以在本地运行NoSQL数据库,但同样需要一些计算资源。