如何将没有模式的一列更改为明确定义的行和列?

时间:2015-05-23 03:41:27

标签: mysql excel data-cleansing

使用SQL或Excel查找任何技巧来清理没有明确模式的~100k记录表。数据通常看起来都是在单独的行中阻塞在一起但是在同一列中:

JENNIFER SMITH
Accountant - Senior
Day Shift
jsmith@mail.com

AMBER Jones
Professional
Pro Status

amberj@mail.com

Abby Stone
Receptionist
Analytics
123 Main St
123-456-7890
abby@mail.com

REBECCA MILLER
Media
Building 2
millerr@mail.com
Sarah M Myers
Executive
BRADBURY SCHOOL
456 Main St

最大的问题是,有些记录下面有三组附加数据,有些记录有五个 - 也许他们有一个电子邮件和/或电话号码可能他们没有,有些记录后有一些记录。不要等等。

我正在寻找使用代码或公式来尝试清理它的想法,而不是手动遍历每一行:

Name            Job                 Info        Email          Phone           Address
JENNIFER SMITH  Accountant - Senior Day Shift   jsmith@mail.com     
AMBER Jones     Professional        Pro Status  amberj@mail.com     
Abby Stone      Receptionist        Analytics   abby@mail.com  123-456-7890    123 Main St
REBECCA MILLER  Media               Building 2  millerr@mail.com        
Sarah M Myers   Executive           BRADBURY SCHOOL                            456 Main St

希望人们可能会使用他们过去必须使用的场景中的想法,这些场景就像这样的非常混乱的数据集。如果它在Excel中,它可能是使用SEARCH()或LEN()的一些组合来尝试识别每个记录的数据何时结束。

我知道这不是最尖锐的问题 - 但如果有人有任何提示,它真的能帮助我。它也不一定非常完美 - 如果它看起来像上面那样温和,我将能够从那一点开始手动清洁它,而不是从一开始。

非常感谢使用任何方法的任何帮助!

1 个答案:

答案 0 :(得分:0)

你会花更多的时间用代码来嘲笑它而不是它的价值。这种格式错误的数据可能不准确。你怎么知道詹妮弗史密斯仍然使用指定的电子邮件地址或列出了工作?如果你以某种方式被迫处理这些数据,那么你最好还是付钱给一个人来键入它。这不应该花费超过一个星期的时间你可能会让某人花费几百美元。即便如此,这些数据肯定是废话,所以我无法看到困扰的重点。