我目前正在尝试帮助我们的市场研究团队准备/清理一些非常混乱的调查数据。我得到了一个CSV文件(计划导入到db表中),其中包含大约2000个人对30个问题的回答。
该调查询问诸如“您最喜欢的电视节目是什么?”之类的问题。或“您经常玩3种手机游戏?”。受访者可以按自己的意愿回答问题,因此,可以想象,数据非常混乱。
因此,对于手机游戏问题,回答通常如下所示:
1. Candy Crush and Clash of Clans
2. Candy Crush Saga, Clash, Bejeweled Blitz
3. BEJEWELED
4. Pac-man
5. PACMAN
etc etc
我应该采用哪种方法通过SQL和或Excel清理和统一此数据?显然,并不是尽力而为,而是尽可能地。