我已经使用Pyspark构建了决策树模型,我想使用docker容器部署该模型。我正在使用spark 1.6.0。数据存储在Hive表中,并且位于我的本地计算机中。有没有办法将docker容器中的PySpark连接到本地计算机中的配置单元表?
我的蜂巢表中的数据可能会更新,所以我不想挂载驱动器或只是将文件夹从本地复制到我的容器中,而是在PySpark和Hive表之间建立连接。
答案 0 :(得分:0)
如果数据位于本地,您仍然可以在docker容器中运行Hive,并将本地文件夹安装在Hive容器中。
然后使用docker-compose
可以轻松地链接容器并通过localhost
访问Hive服务器
另一种选择是在运行PySpark容器时使用--network="host"
,它将通过主机网络进行网络连接。
出于安全原因,可能不是您想要的,这取决于您的工作。
请参阅From inside of a Docker container, how do I connect to the localhost of the machine?