使用Docker容器设置数据科学前端的一种简单方法是?

时间:2018-07-24 07:09:06

标签: docker hadoop hdfs hue

我想使用Docker容器设置一个数据科学前端测试环境。 该平台应提供用户友好的界面,并能够管理巨大的CSV文件。 我的第一种方法是使用Anaconda发行版,以利用Python和Jupyter Notebook的灵活性。不幸的是,考虑到我的团队主要在Python中使用数据科学库(例如Pandas),因此在处理大型CSV时此解决方案太慢。 我考虑过使用像Hue这样的前端迁移到HDFS,以便获得在导出数据并使用其他工具进行数据科学之前使用SQL处理数据的好处。但是,这种方法太复杂了(需要设置Hadoop以及许多其他东西才能使用Hue)。 而且,据我所知,没有提供用于Hadoop的官方容器。而且据我了解,Hue Docker容器不提供HDFS。

是否已经有可用的容器作为容器,提供了以下内容:

  • 可以在网络gui中或通过简单的方式(例如.SFTP)加载(巨大)文件(例如CSV)
  • 使用类似于SQL的工具通过网络GUI处理大数据,以创建中间数据/可视化
  • 可以CSV或其他格式导出数据
  • 与其他数据科学工具集成将是有益的

谢谢!

1 个答案:

答案 0 :(得分:1)

Hue要求您在现有的Hadoop群集上启用WebHDFS以与文件浏览器一起使用。

默认Docker映像被配置为仅访问在localhost上运行的所有服务,但您不应该在Hue容器内安装Hadoop。

我个人认为BigData Europe容器是最可配置的。您将需要一个namenode和datanode容器。

然后,如果您的HDFS正在执行用户帐户检查,则需要在色相中配置将通过您的HDFS用户名传递的一种登录方法。我不相信默认值会做到这一点。

可以通过对hue.ini配置文件使用卷安装来配置色调容器