我有一个问题,我认为这可能是档案馆的一个好主题,因为我想很多人在他们的职业生涯中可能会遇到类似的问题。我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有建议,想法和意见。
我的故事:
目前,我收到两种不同类别的数据(AKA" Constant"和" Variable")。包含过多的财务信息[即。贷款,利率,抵押贷款,地址等......]。每个供应商都有自己的格式样式和不同于我自己的命名约定。
设置1)常量集:每天包含来自不同供应商的大约25个CSV文件。每个供应商的数据都有不同的名称(列标题),但其数据格式与我的相似。
设置2)变量集:包含大约20个文件,虽然它们的格式和标题几乎总是唯一的(即我有一个名为&#34的数据集;贷款利率",我的供应商称之为&# 34; Rate"," LnRt"," rT"," PxrT"等...)。因此,我需要浏览每个文件,首先清理数据的格式(正确的大小写格式,将名称解析到不同的列,转换日期/时间格式等)。然后重新标记所有内容。
我目前的清理数据的方法是使用"上传模板"在Excel中。清除所有数据的格式后,我将供应商文件中的值复制到我的模板上。然后我将模板中的数据加载到temp中。 SQL服务器上的表(临时表)。然后运行一些SQL脚本,将值插入数据库(DB)中的正确位置。
正如您可能想象的那样,整个过程非常繁琐耗时 - 继续手动执行此操作不再是一个真正的选择。
关于我的问题:
1)你做过这样的事吗?如果是这样,你是怎么做到的?
2)有关如何根据其中的名称列表快速更改列名(标题)的任何想法 另一张?
3)您对如何改进流程有任何建议吗?
4)您知道任何可以自动执行此过程的软件吗?
答案 0 :(得分:1)
三个字母:E。T. L.
点击Goggles,有几个免费的ETL工具。你正在用你的过程重新发明轮子。