我正在尝试管理大量数据文件的项目。基本上我有一个方格为resolution of some 900 by 700
的地图。这就是630,000 squares
。在每个方格上,我们有一个与本地天气数据相关的数据文件,其日期可以追溯到1900年。这些数据文件是CSV格式,包含两列:非零小数记录和相关日期。因此每个文件的行数都是唯一的。文件大小范围为0K to 1MB
。
目前的情况是所有630,000+
个文件都保存在一个文件夹中。随着新数据记录的启动,我需要更新这些文件中的每一个。该文件夹在260GB
处是最新的。我正在研究优化当前情况的方法,并开发工具来自动化未来的数据更新和提取。
我的问题是:有没有办法优化数据当前的存储方式?似乎没有太多的数据冗余。我甚至无法将1年的数据输入计算机内存进行铲除。我希望有人可以分享一下如何在工作场所的硬盘上存储/管理这种数据。
答案 0 :(得分:0)
对我而言,这些数据文件似乎包含
形式的数据1;20.09.1983
17;16.05.1985
.
.
.
所以......让我们做一个假设:
您有1.000.000张Imagetiles,您必须存储1-100.000个参赛作品。 让我们平均为每个1.000.000 ImageTiles创建30.000条记录。总共有30.000.000.000(30亿行)。
让数据分区。
整个日期跨度的30亿行。您可以使用不同的数据库或不同的服务器或仅使用不同的表来存储该数据。 您的工作是与客户进行沟通,以确定业务案例。商业案例是否只显示一年的数据?分区多年。业务案例是否仅显示来自特定区域的数据?按地理位置划分。
总而言之,我会将csv数据放入数据库中。因此,您可以对该数据进行查询。为Image Tiles提供一个唯一的名称,并从数据库中链接到该名称。
不需要nosql存储。 MS SQL处理大量数据。