我正在尝试在Python评估程序的纯模式下运行“ pip install py4j”。我找不到可以运行此命令来安装依赖项的地方。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。
谢谢!
答案 0 :(得分:0)
没有直接的方法,因为您不能修改管道执行中使用的Dataproc集群。因此,如果您真的需要在本机模式下使用Python插件,我的建议是使用py4j库创建一个集群,然后使用"Remote Hadoop provisioner"将其连接到Data Fusion。
请考虑使用此配置程序,您需要创建一个新的计算配置文件,该配置文件仅在Data Fusion Enterprise版本中可用。
要在集群中安装py4j库,可以create a custom image with the library,提供initialization actions script进行安装,也可以SSH到计算机中并手动执行pip install命令。
答案 1 :(得分:0)
是的,Tlaquetzal是对的,基本上,您有两种方法可以实现这一目标。
使用固定集群并在CDAP中设置Remote Hadoop Provisioner
使用该库创建自定义图像。
#!/bin/bash
apt-get update
apt -y --force-yes install python3.7
apt -y --force-yes install python3-pip
pip3 install py4j