基于以下用例,pentaho工具实现动态转换的灵活性如何?
用户需要从目录中进行首选。 (使用网络界面)
根据之前选择的项目,用户必须从另一个目录中进行选择(必须根据第一个选择对第二个目录进行过滤)。
在某些情况下,步骤1和2可能会重复(即两个以上的动态和相关参数)。
根据用户在步骤1和2中选择的内容,ETL必须从数据库中提取信息。从中选择数据的表将取决于用户在之前步骤中选择的内容。大多数表具有类似的结构,但基于所选项目的名称不同。有些表具有不同的结构,用户必须能够再次根据步骤1的选择选择步骤2中的字段。
用户所做的所有选择都应该能够保存,因此用户以后不必重复选择,只需重新运行该过程即可获得基于预先的更新信息。选定过滤器。但是,如果他/她想要不同的参数,他/她必须能够进行不同的选择并保存以供进一步使用。
是否有基于网络的工具允许用户做出所有这些选择?我使用水壶而不是动态地完成整个过程,因为在控制台中运行过程时需要传递所有参数。问题是,最终用户不知道所有参数值,除非您显示它们并让他们选择,并且某些参数取决于先前的选择。测试时我可以使用我的测试用例场景参数,所以我没有问题,但在生产中没有办法事先知道用户会选择哪种组合。
我发现了一个类似的问题,但它似乎不需要用户在转换步骤之间输入。
我很欣赏有关Pentaho工具完成上述用例的能力的任何评论。
答案 0 :(得分:1)
我不同意这里的其他答案。如果您使用CDE,则可以构建一个可以轻松完成您建议的提示的前端。 CDE的优点在于转换可以通过CDA数据访问层成为本机数据源。在这种环境下,水壶几乎不比直接执行查询慢。
PDI性能的关键在于避免一次又一次地启动JVM - 在Web应用程序中运行时,您已经开始运行,因此性能会很好。
也;最新版本的PDI5将具有“轻量级jdbc”驱动程序(EE客户),它基本上是PDI作业上的SQL接口。因此,这再次表明PDI远远超过了“批量”etl过程。
答案 1 :(得分:0)
这完全超出了水壶用例的范围。来自Kettle的响应时间对于任何用户来说都太慢了。它的真正优势在于运行批处理ETL过程。
例如,请参阅this slideshow(特别是幻灯片11),了解典型水壶使用案例。