我有一个关于设置表格以处理我每天导入的大量数据的最佳方法的一般性问题。 我将每天导入10个包含1000条记录的csv文件,因此该表将迅速扩展。
它由15个左右的列组成,范围从微小和中等整数到30个字符的变量。
没有ID字段 - 我可以加入6列来形成主键 - 这将是一个var char总长度约为45。
当它被导入时,我需要通过Web前端在摘要级别报告这些数据,因此我认为自己必须在导入后从此构建报告表。
在这些数据中,有许多字段在每天导入日期,地区,客户等方面重复出现,每天只有一半列特定于记录。
问题:
我担心此表上的数据过载会导致在构建报表时越来越难以提取报告表吗?
建议真有帮助。感谢。
答案 0 :(得分:1)
我认为这里最重要的一点是定义您的数据保留率 - 您很少需要在一两年后保留每日解决方案。
如果您认为将来可能仍需要每日解决方案,则汇总到较低分辨率的帧并存档(mysqldump> bzip非常有效)。