Pentaho对动态转换有多灵活? (基于用户输入的参数)

时间:2013-08-09 17:55:07

标签: etl pentaho kettle

基于以下用例,pentaho工具实现动态转换的灵活性如何?

  1. 用户需要从目录中进行首选。 (使用网络界面)

  2. 根据之前选择的项目,用户必须从另一个目录中进行选择(必须根据第一个选择对第二个目录进行过滤)。

  3. 在某些情况下,步骤1和2可能会重复(即两个以上的动态和相关参数)。

    1. 根据用户在步骤1和2中选择的内容,ETL必须从数据库中提取信息。从中选择数据的表将取决于用户在之前步骤中选择的内容。大多数表具有类似的结构,但基于所选项目的名称不同。有些表具有不同的结构,用户必须能够再次根据步骤1的选择选择步骤2中的字段。

    2. 用户所做的所有选择都应该能够保存,因此用户以后不必重复选择,只需重新运行该过程即可获得基于预先的更新信息。选定过滤器。但是,如果他/她想要不同的参数,他/她必须能够进行不同的选择并保存以供进一步使用。

    3. 是否有基于网络的工具允许用户做出所有这些选择?我使用水壶而不是动态地完成整个过程,因为在控制台中运行过程时需要传递所有参数。问题是,最终用户不知道所有参数值,除非您显示它们并让他们选择,并且某些参数取决于先前的选择。测试时我可以使用我的测试用例场景参数,所以我没有问题,但在生产中没有办法事先知道用户会选择哪种组合。

      我发现了一个类似的问题,但它似乎不需要用户在转换步骤之间输入。

      我很欣赏有关Pentaho工具完成上述用例的能力的任何评论。

2 个答案:

答案 0 :(得分:1)

我不同意这里的其他答案。如果您使用CDE,则可以构建一个可以轻松完成您建议的提示的前端。 CDE的优点在于转换可以通过CDA数据访问层成为本机数据源。在这种环境下,水壶几乎不比直接执行查询慢。

PDI性能的关键在于避免一次又一次地启动JVM - 在Web应用程序中运行时,您已经开始运行,因此性能会很好。

也;最新版本的PDI5将具有“轻量级jdbc”驱动程序(EE客户),它基本上是PDI作业上的SQL接口。因此,这再次表明PDI远远超过了“批量”etl过程。

答案 1 :(得分:0)

这完全超出了水壶用例的范围。来自Kettle的响应时间对于任何用户来说都太慢了。它的真正优势在于运行批处理ETL过程。

例如,请参阅this slideshow(特别是幻灯片11),了解典型水壶使用案例。