我已经安装了具有Pentaho Data Integration的Azure VM,我正在尝试构建一些ETL,该ETL可从登台区域加载维度模型,但是当我开始转换时,将PDI加载到任何Azure数据库中的速度非常痛苦慢。
是否可以使PDI与Azure数据库一起在云上工作?要达到合理的加载速度,需要一些配置步骤吗?
PS:
答案 0 :(得分:0)
我一直遇到相同的速度问题,但是我会告诉你我的解决方法。
首先::下载并安装最新的jdbc驱动程序,该驱动程序使您可以与azure sql数据库建立连接,在文档中,链接为here,但我的方法是保持同步GitHub中的任何一项都可以让您使用PDI中的最新驱动程序。
第二种解决方法::对于大文件,我发现最强大的功能是使用与PowerShell或Linux Batch集成的BCP Utility。不在意它的文件是本地文件还是在azure blob存储中,但是您可能需要此凭据。
最后但并非最不重要的:使用Azure Data Factory V2移动和加载文件(如果您像我一样,我会尝试将其保留在PDI中,直到必须加载它为止, http get step 将使您触发ADF管道。
祝你好运,让我知道。