注意:我搜索了,但找不到任何重复的主题。请不要误解其他大数据集相关主题。
这就是我要面对的:
每个请求都必须存储1000到50,000个数据集以及请求信息。
与生成的数据集有关的事情
现在,我正在考虑以下方法:
dataset
中的JSON字段中。表模式示例:
方法1 :
表请求:id (int unsigned)
,user_id (int)
,ip (varchar)
,dataset_count (smallint unsigned)
表数据集:id (bigint)
,request_id (int unsigned)
,timestamp (int unsigned)
,cycles (tinyint)
,probability (tinyint)
方法2 :
表请求:id (int unsigned)
,user_id (int)
,ip (varchar)
,dataset_count (smallint unsigned)
,datasets (json)
方法3 :
表请求:id (int unsigned)
,user_id (int)
,ip (varchar)
,dataset_count (smallint unsigned)
表数据集:id (bigint)
,request_id (int unsigned)
,sequence_no (smallint)
,chunked_datasets (json)
考虑性能和I / O效率,我想在绘制结构之前选择正确的方法。
有人在类似案件中有经验吗?
感谢分享知识。