我正在研究我的论文,我有机会建立一个工作环境来测试功能及其工作原理。
应涵盖以下几点:
- jupyterhub(在私有云中)
- pandas,numpy,sql,nbconvert,nbviewer
- 将数据导入DataFrame(csv),分析数据,存储数据(RDD?,HDF5?,HDFS?)
- 未来分析的火花
测试场景包括:
- 具有用户/主题笔记本的多用户环境
- 分析结构表(RSEG,MSEG,EKPO)与数百万行匹配的数百万行与pandas,numpy和spark(spark-sql),matplotlib ....在这3个表中约3GB的数据
- 使用nbconvert导出笔记本,nbviewer导出为pdf,只读notbook和/或reveal.js
你们能不能给我一些关于我应该用于测试的笔记的一些提示或经验,Linux发行版是一个好的开始?
我相信还有很多问题,我有办法找到方法或信息来评估可能的答案。
提前感谢!