在GCP数据融合的pythonEvaluator转换中运行pip install py4j

时间:2020-02-04 17:12:03

标签: google-cloud-platform google-cloud-data-fusion cdap

我正在尝试在Python评估程序的纯模式下运行“ pip install py4j”。我找不到可以运行此命令来安装依赖项的地方。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。

谢谢!

2 个答案:

答案 0 :(得分:0)

没有直接的方法,因为您不能修改管道执行中使用的Dataproc集群。因此,如果您真的需要在本机模式下使用Python插件,我的建议是使用py4j库创建一个集群,然后使用"Remote Hadoop provisioner"将其连接到Data Fusion。

请考虑使用此配置程序,您需要创建一个新的计算配置文件,该配置文件仅在Data Fusion Enterprise版本中可用。

要在集群中安装py4j库,可以create a custom image with the library,提供initialization actions script进行安装,也可以SSH到计算机中并手动执行pip install命令。

答案 1 :(得分:0)

是的,Tlaquetzal是对的,基本上,您有两种方法可以实现这一目标。

  1. 使用固定集群并在CDAP中设置Remote Hadoop Provisioner

  2. 使用该库创建自定义图像。

    • 使用库doc创建自定义图像
    #!/bin/bash
    apt-get update
    apt -y --force-yes install python3.7
    apt -y --force-yes  install python3-pip
    pip3 install py4j
    
    • 如下所示在CDAP计算配置文件中设置自定义映像