使用SQL或Excel查找任何技巧来清理没有明确模式的~100k记录表。数据通常看起来都是在单独的行中阻塞在一起但是在同一列中:
JENNIFER SMITH
Accountant - Senior
Day Shift
jsmith@mail.com
AMBER Jones
Professional
Pro Status
amberj@mail.com
Abby Stone
Receptionist
Analytics
123 Main St
123-456-7890
abby@mail.com
REBECCA MILLER
Media
Building 2
millerr@mail.com
Sarah M Myers
Executive
BRADBURY SCHOOL
456 Main St
最大的问题是,有些记录下面有三组附加数据,有些记录有五个 - 也许他们有一个电子邮件和/或电话号码可能他们没有,有些记录后有一些记录。不要等等。
我正在寻找使用代码或公式来尝试清理它的想法,而不是手动遍历每一行:
Name Job Info Email Phone Address
JENNIFER SMITH Accountant - Senior Day Shift jsmith@mail.com
AMBER Jones Professional Pro Status amberj@mail.com
Abby Stone Receptionist Analytics abby@mail.com 123-456-7890 123 Main St
REBECCA MILLER Media Building 2 millerr@mail.com
Sarah M Myers Executive BRADBURY SCHOOL 456 Main St
希望人们可能会使用他们过去必须使用的场景中的想法,这些场景就像这样的非常混乱的数据集。如果它在Excel中,它可能是使用SEARCH()或LEN()的一些组合来尝试识别每个记录的数据何时结束。
我知道这不是最尖锐的问题 - 但如果有人有任何提示,它真的能帮助我。它也不一定非常完美 - 如果它看起来像上面那样温和,我将能够从那一点开始手动清洁它,而不是从一开始。
非常感谢使用任何方法的任何帮助!
答案 0 :(得分:0)
你会花更多的时间用代码来嘲笑它而不是它的价值。这种格式错误的数据可能不准确。你怎么知道詹妮弗史密斯仍然使用指定的电子邮件地址或列出了工作?如果你以某种方式被迫处理这些数据,那么你最好还是付钱给一个人来键入它。这不应该花费超过一个星期的时间你可能会让某人花费几百美元。即便如此,这些数据肯定是废话,所以我无法看到困扰的重点。