模式匹配以标识日期格式

时间:2015-10-12 08:41:53

标签: ssis sas talend informatica pdi

我的源具有不同的日期格式,如下所示,我正在寻找一种算法来识别在Pentaho Data集成中使用选择值和模糊步骤尝试的源日期模式。

日期栏(字符串)
" 20150210"
" 20050822 - "
" 2014-02-五月"
" 20051509 - "
" 02可能 - 2014"
" 2013可能 - 12"
" 12DEC2013"
" 15050815"
"五月-02-2014"
" 12312015"

我知道在PDI中我们可以通过JS逐步编写实现每个模式的条件但不是一个好主意,这种方法在处理大量记录时使转换失效,寻找有效的搜索日期模式的方法。 / p>

我认为这是所有ETL项目中非常常见的问题,在这里我试图了解SAS数据集成,Informatica,SSIS等企业供应商如何提供简便的处理方式。

我们是否有任何算法来识别源模式。如果是哪一个?

上面列出的格式不受限制。

1 个答案:

答案 0 :(得分:0)

不能简单地将“单价”值确定为任何给定输入的格式。

请考虑以下所有格式完全有效:

  • MM-dd-yy
  • dd-MM-yy
  • YY-MM-DD

如@billinkc的评论中所述,在这种情况下你会称之为01-02-05

如果有的话,只有在考虑了数据集时才能解决这个问题(例如,您知道下一个X行都来自相同的日期格式)。然后,您可以将其视为线性问题,其中一些约束可以帮助您确定日期格式。即使这样,你也无法保证你会得到一个明确的答案,只是增加你得到明确答案的可能性。