应用错误收集

时间：2018-12-30 15:56:18

标签： docker hive pyspark

我已经使用Pyspark构建了决策树模型，我想使用docker容器部署该模型。我正在使用spark 1.6.0。数据存储在Hive表中，并且位于我的本地计算机中。有没有办法将docker容器中的PySpark连接到本地计算机中的配置单元表？

我的蜂巢表中的数据可能会更新，所以我不想挂载驱动器或只是将文件夹从本地复制到我的容器中，而是在PySpark和Hive表之间建立连接。

答案 0 :(得分：0)

如果数据位于本地，您仍然可以在docker容器中运行Hive，并将本地文件夹安装在Hive容器中。

然后使用docker-compose可以轻松地链接容器并通过localhost访问Hive服务器

另一种选择是在运行PySpark容器时使用--network="host"，它将通过主机网络进行网络连接。出于安全原因，可能不是您想要的，这取决于您的工作。