我对数据规范化有一个一般性的问题(我进入SQL的第一步)。我得到了一个CSV文件,该文件已上传到MySQL工作台,并被要求进行数据标准化(使用常规格式)。我发现了一些明显的重复项,但是我不确定一件事。有关于公司及其地址的数据,但是,例如,在“国家/地区”字段中,美国重复了数千次,我不确定这是否算作重复数据?我是否应该制作一个单独的表(例如“国家/地区”)并为其赋予唯一的ID(例如,对于美国来说是1),然后更新原始表中的数据(如果美国表中的数据替换为1)?
答案 0 :(得分:0)
如果要消除重复项,那么'UNITED STATES'
实际上就是重复项。
因此,如果您的目标是规范化,则将需要一个countries
参考表。
请注意,在这种情况下,规范化可能会减少数据的大小。 countries
表的密钥可能是整数(4个字节),尽管它也可以是ISO 2个字符或3个字符的国家/地区代码。在原始表中重复主键将减少数据库中数据的整体大小。