linux - 如何构建测试环境（Linux，Spark，jupyterhub - Thinbug

如何构建测试环境（Linux，Spark，jupyterhub

时间：2016-12-21 14:12:04

标签： linux hadoop apache-spark pyspark jupyterhub

我正在研究我的论文，我有机会建立一个工作环境来测试功能及其工作原理。

应涵盖以下几点：

jupyterhub（在私有云中）
pandas，numpy，sql，nbconvert，nbviewer
将数据导入DataFrame（csv），分析数据，存储数据（RDD？，HDF5？，HDFS？）
未来分析的火花

测试场景包括：

具有用户/主题笔记本的多用户环境
分析结构表（RSEG，MSEG，EKPO）与数百万行匹配的数百万行与pandas，numpy和spark（spark-sql），matplotlib ....在这3个表中约3GB的数据
使用nbconvert导出笔记本，nbviewer导出为pdf，只读notbook和/或reveal.js

你们能不能给我一些关于我应该用于测试的笔记的一些提示或经验，Linux发行版是一个好的开始？我相信还有很多问题，我有办法找到方法或信息来评估可能的答案。

提前感谢！

0 个答案:

没有答案