应用错误收集

我想使用Docker容器设置一个数据科学前端测试环境。该平台应提供用户友好的界面，并能够管理巨大的CSV文件。我的第一种方法是使用Anaconda发行版，以利用Python和Jupyter Notebook的灵活性。不幸的是，考虑到我的团队主要在Python中使用数据科学库（例如Pandas），因此在处理大型CSV时此解决方案太慢。我考虑过使用像Hue这样的前端迁移到HDFS，以便获得在导出数据并使用其他工具进行数据科学之前使用SQL处理数据的好处。但是，这种方法太复杂了（需要设置Hadoop以及许多其他东西才能使用Hue）。而且，据我所知，没有提供用于Hadoop的官方容器。而且据我了解，Hue Docker容器不提供HDFS。

是否已经有可用的容器作为容器，提供了以下内容：

可以在网络gui中或通过简单的方式（例如.SFTP）加载（巨大）文件（例如CSV）
使用类似于SQL的工具通过网络GUI处理大数据，以创建中间数据/可视化
可以CSV或其他格式导出数据
与其他数据科学工具集成将是有益的

谢谢！

使用Docker容器设置数据科学前端的一种简单方法是？

1 个答案: