我的源具有不同的日期格式,如下所示,我正在寻找一种算法来识别在Pentaho Data集成中使用选择值和模糊步骤尝试的源日期模式。
日期栏(字符串)
" 20150210"
" 20050822 - "
" 2014-02-五月"
" 20051509 - "
" 02可能 - 2014"
" 2013可能 - 12"
" 12DEC2013"
" 15050815"
"五月-02-2014"
" 12312015"
我知道在PDI中我们可以通过JS逐步编写实现每个模式的条件但不是一个好主意,这种方法在处理大量记录时使转换失效,寻找有效的搜索日期模式的方法。 / p>
我认为这是所有ETL项目中非常常见的问题,在这里我试图了解SAS数据集成,Informatica,SSIS等企业供应商如何提供简便的处理方式。
我们是否有任何算法来识别源模式。如果是哪一个?
上面列出的格式不受限制。
答案 0 :(得分:0)
不能简单地将“单价”值确定为任何给定输入的格式。
请考虑以下所有格式完全有效:
如@billinkc的评论中所述,在这种情况下你会称之为01-02-05
?
如果有的话,只有在考虑了数据集时才能解决这个问题(例如,您知道下一个X行都来自相同的日期格式)。然后,您可以将其视为线性问题,其中一些约束可以帮助您确定日期格式。即使这样,你也无法保证你会得到一个明确的答案,只是增加你得到明确答案的可能性。