我想使用Docker容器设置一个数据科学前端测试环境。 该平台应提供用户友好的界面,并能够管理巨大的CSV文件。 我的第一种方法是使用Anaconda发行版,以利用Python和Jupyter Notebook的灵活性。不幸的是,考虑到我的团队主要在Python中使用数据科学库(例如Pandas),因此在处理大型CSV时此解决方案太慢。 我考虑过使用像Hue这样的前端迁移到HDFS,以便获得在导出数据并使用其他工具进行数据科学之前使用SQL处理数据的好处。但是,这种方法太复杂了(需要设置Hadoop以及许多其他东西才能使用Hue)。 而且,据我所知,没有提供用于Hadoop的官方容器。而且据我了解,Hue Docker容器不提供HDFS。
是否已经有可用的容器作为容器,提供了以下内容:
谢谢!
答案 0 :(得分:1)
Hue要求您在现有的Hadoop群集上启用WebHDFS以与文件浏览器一起使用。
默认Docker映像被配置为仅访问在localhost上运行的所有服务,但您不应该在Hue容器内安装Hadoop。
我个人认为BigData Europe容器是最可配置的。您将需要一个namenode和datanode容器。
然后,如果您的HDFS正在执行用户帐户检查,则需要在色相中配置将通过您的HDFS用户名传递的一种登录方法。我不相信默认值会做到这一点。
可以通过对hue.ini
配置文件使用卷安装来配置色调容器