我对pentaho不熟悉。当前,我们需要对我们的pentaho CE进行群集,以平衡我们现有的转换。但老实说,我们对此感到困惑。
在pentaho文档Cluster the Application Server - Pentaho Documentation上,它描述了如何群集PDI应用程序服务器。但是,另一方面,有一些文档可以代替Carte引擎。为了实现可以分配计划作业的集群,我应该集群哪个应用程序?是点菜还是PDI?群集PDI Application Server和群集Carte引擎有什么区别?谢谢
答案 0 :(得分:3)
这不是一个新问题,并且有很多人将Pentaho应用程序服务器和Pentaho数据集成(水壶)弄混了。感谢您的营销,将Pentaho收购的所有产品重命名为Pentaho。将来可能Pentaho将重命名为Vantara,因此它将有助于提前将所有事物混合在一起。
如果要集群化转换执行,请使用与Pentaho BA服务器不直接相关的Pentaho Data Integration产品。 Pentaho数据集成(以前称为Kettle)完全可以不使用Pentaho BA服务器(或Pentaho应用服务器)。以前的时候,所谓的PDI甚至根本不是Pentaho的一部分,而是以不同的方式命名,而Carte服务器已经就位,并且是Kettle的一部分。现在所有这些都称为Pentaho pentaho pentaho,从我的角度来看,这就是为什么Carte和Pentaho BA服务器与生态系统中的任何其他服务器之间都找不到差异的原因。
简而言之-Carte服务器用于执行PDI(水壶)作业/转换。 Pentaho服务器是用作报表存储库的Web应用程序,并托管报表执行引擎。这是完全不同的项目,甚至可以一起进行完善的数据分析。
为什么选择点菜?
Carte服务器来自哪里?它来自水壶。水壶本身就是执行ETL转换的工具。之所以称为K-et(t)le,是因为发明水壶的人是KDE风扇(嗨,马特!),他之所以加上k + etl是因为所有KDE风扇都喜欢在其产品中添加K作为第一个字母。我可以提到.kjb的文件扩展名.ktr-第一个字母是'K'。因此工具被称为水壶。它具有用于创建转换和作业的UI。然后-创建了一种无需用户界面即可运行xml作业和转换的工具-之所以把Spoon称为笑话是因为主要工具被称为Kettle。然后-人们制作了Carte服务器-远程服务器或服务器集群来运行ETL作业和转换-因此,作为主线,它被称为Carte,就像葡萄酒的Carte。这是关于命名的。
如果您熟悉什么是PDI作业和转换-只是普通的xml元数据文件,它们描述了做什么以及如何以及在何处提取信息。他们需要执行引擎。它们可以在UI设计器中运行(PDI ui或Kettle),可以计划在没有UI的情况下运行(这是Spoon执行),也可以在1 ... n个远程服务器上执行-这就是Carte执行。
Carte本身只是码头网络服务器,它可以启动并监听传入的xml。记住,PDI作业或转换-仅是xml。它可以是整个xml-意味着整个转换将在Carte上运行,或在转换的一部分(远程步骤或远程转换)上运行。无论如何-它正在运行一个Java进程,该进程正在等待xml元数据有关如何从中提取转载和加载。
当我们谈论Carte服务器集群时,我们谈论的是一个或多个一起启动的码头服务器。其中之一可以是主人。如果您将作业/转换发布到母版上,它将根据kjb / ktr xml启动进程,并且如果发现该作业/转换旨在运行在点菜服务器集群上,它将发送元数据(在某些情况下为数据)从站将执行其部分工作并将数据返回给主站。关于如何运行作业/传输,有很多详细信息。在点菜集群上-只需想象它是一台或多台能够执行水壶作业/转换的码头服务器。
为什么要使用Pentaho BA服务器?
现在,关于Pentaho BA的出生方式。
...当我们谈论上述Kettle的开始时,同时完全独立的是Pentaho公司,他从事创建BA服务器的工作。他们获得了报表引擎(现在称为Pentaho Reporting)和运行mdx查询的Mondrian引擎,并且是一家相当成功的公司。他们甚至发明了xml形式的x-action,以为其BA服务器运行一堆命令。但是幸运的是强大的数据提取引擎。然后他们找到了上面提到的水壶。这是一个巨大的成功,他们拥有良好的报告引擎,并且良好的报告引擎符合良好的数据提取工具。因此,他们收购了Kettle,并将其重命名为Pentaho Data Integration(他们的所有产品都称为Pentaho),并且它成为Pentaho BA服务器的一部分。
Pentaho BA 和 Carte ?
如何一起使用?当您在Pentaho BA服务器上运行报表时,它将尝试从任何地方提取一些信息。 Pentaho BA服务器包括报告引擎,该引擎负责检索数据以生成报告。如果已配置报告以从PDI(以前称为Kettle)读取数据,则指向作业(.kjb)或转换(.ktr)。在Pentaho BA服务器上执行报告时-Pentaho BA服务器调用报告引擎,发现该报告需要ktr / kjb执行-因此调用PDI引擎执行作业或转换以提取数据。可以将作业或转换配置为在一个或多个Carte服务器上运行-因此将向执行Carte服务器请求执行以执行此作业或转换。看一下:我们已请求Pentaho BA服务器执行报告。 Pentaho BA服务器是tomcat服务器。 Pentaho BA服务器会生成报告-但它需要运行PDI引擎-并且PDI引擎发现我们将要执行集群作业或转换,它将调用Carte服务器-根本就是独立服务器。
在某些情况下,Pentaho BA服务器执行报告-调用PDI引擎,并且PDI引擎不需要在Carte上进行任何群集即可运行作业或转换。在那种情况下,PID引擎可以在Pentaho BA Java进程本身中执行(从7 Petaho版本开始,它可以完全异步)。
在某些情况下,即使根本没有Pentaho BA服务器,您也可以运行作业或转换-使用Spoon运行kjb / ktr-如果您已配置Carte集群-您根本不需要Pentaho BA服务器。 / p>
请记住,还有Pentaho Big Data Plugin,它是PDI / Pentaho / Kettle的一部分,但有其自身的历史和考虑因素。如果您要去探索Pentaho世界,您将有一天见到它,所以不要感到惊讶。
感谢您营销所有产品都叫Pentaho(我希望不久以后所有产品都将被重新称为Vantara,以便再次混合所有产品),我记得从一开始就很难理解来自何处,原因何在,以及多年来一直缺乏关于所有这些内容的文档。
您可能正在寻找documentation on Carte server。它适用于5岁以上,但我不希望现在情况有所改变。