将PySpark从Docker容器连接到本地计算机的配置单元表

时间:2018-12-30 15:56:18

标签: docker hive pyspark

我已经使用Pyspark构建了决策树模型,我想使用docker容器部署该模型。我正在使用spark 1.6.0。数据存储在Hive表中,并且位于我的本地计算机中。有没有办法将docker容器中的PySpark连接到本地计算机中的配置单元表?

我的蜂巢表中的数据可能会更新,所以我不想挂载驱动器或只是将文件夹从本地复制到我的容器中,而是在PySpark和Hive表之间建立连接。

1 个答案:

答案 0 :(得分:0)

如果数据位于本地,您仍然可以在docker容器中运行Hive,并将本地文件夹安装在Hive容器中。

然后使用docker-compose可以轻松地链接容器并通过localhost访问Hive服务器

另一种选择是在运行PySpark容器时使用--network="host",它将通过主机网络进行网络连接。 出于安全原因,可能不是您想要的,这取决于您的工作。

请参阅From inside of a Docker container, how do I connect to the localhost of the machine?