程序化数据转换策略

时间:2013-08-09 23:08:04

标签: etl data-integration

我有一个产品从客户端导入某些数据文件(即:用户目录等),并将导出其他类型的数据(即:报告等)。所有导入和导出当前都是CSV格式(rfc4180),文件通过托管文件传输来回传递。

我越来越多地看到客户要求转换和重新配置这些数据文件以供其旧系统使用。对于导入数据文件,它是奇怪的请求,如:

  

“我们向你传递了20列,从那里应用$ business_logic到   第4,7,5,18,19栏,以确定您的系统所需的实际值   第21列,然后删除那些原始列,因为它们并不真正有用   自己“

  

“第2列中的值用零填充,请将其剥离。”

对于数据导出文件,它的请求如下:

  

“您正在向我们发送.csv,但我们需要使用我们特殊的固定宽度格式。”

  

“您正在格式化带小数的数字。请删除它们,并使用8个零前缀。”

当然,我们船上的每个客户都有不同的要求。我很想潜入并从头开始写东西,因为我想在构建不同格式的文件(csv,tsv,固定宽度,excel,石碑)和处理字符编码时会有各种各样的问题。我正在寻找的是某种开发框架(或商业产品),它将使我们能够快速满足越来越多的(和各种)数据转换请求。轻量级的东西简单是首选。

任何想法或经历表示赞赏。

1 个答案:

答案 0 :(得分:1)

我不确定它是否完全合适,但您可以查看streamsets.com

它是一个用于数据移动和轻量级转换的开源工具。它允许您提供最小的输入模式(例如,我有CSV文件),因此您不必处理您提到的很多事情。

*完全披露我是StreamSets的工程师