我目前在一家报纸发行公司工作,需要将我们系统中的客户数据与报纸出版商提供的客户数据进行比较。这两组数据都采用CSV格式,我需要找到一个CSV而不是另一个CSV的客户,我们CSV中但不是发布商CSV的客户意味着我们在没有付款的情况下发送文件。这是我们显然想知道的。
这两个CSV都包含姓氏,名字,地址,当天每天所需的报纸数量等字段。
正如我上面提到的,我只需要运行某种脚本来列出所有仅在CSV中但不在两者中的客户,以及同时包含CSV但收到不同数量纸张的客户(即仅在我们的数据库上接收周末论文,但在另一个数据库上收到工作日论文。)
我一直在使用excel来做这件事,将两组数据合并到一个页面上并按姓氏排序然后手动删除匹配的客户。
为了使事情进一步复杂化,1/10高街和单元1,10高st是相同的东西,但我不知道是否有可能内置这种容错,我想忽略了街道号码,只有脚本查看街道名称,姓氏和收到的交付数量。
以下是我们的CSV示例:
sun mon tue wed thu fri sat
JACKSON JANET 3 LONG COURT 1 1 1 1 1 1 1
JACKSON NICHOLAS 26 HERITAGE Court 1 1 1 1 0 1 1
JACKSON CHRIS 36/8 POTT Circuit 0 0 0 0 1 1 1
以下是发布商CSV的示例:
sun mon tue wed thu fri sat
JACKSON J 3 LONG CRT 1 1 1 1 1 1 1
JACKSON NICHOLAS 26 HERITAGE Crt 1 1 1 1 1 1 1
JACKSON MICHAEL 44 BRENTWICK DR 1 0 0 0 0 0 0
JACKSON CHRIS Unit 36,8 POTT Cct 0 0 0 0 1 1 1
我希望脚本可以忽略珍妮特和克里斯,即使数据不完全匹配,突出显示尼古拉斯(由于缺少星期四的论文)和迈克尔(由于他不在两个CSV中)