如何在zeppelin中使用pyspark获取HIVE数据

时间:2017-10-14 00:23:43

标签: python hadoop hive pyspark apache-zeppelin

我正在学习Hadoop环境,对不起,如果这些是如此愚蠢的问题!

我将数据(Kaggle Outbrain点击预测)存储到HIVE,我使用了RDD。 然后我想使用Zeppelin spark2.pyspark.来使用python函数。

当我用%jdbc(hive)调用数据时,我可以看到它。

我的问题是;

如何在zeppelin上播放数据帧或者我是否必须创建数据帧?

如何启动python分析部分?如果我做任何改变会影响HIVE数据吗?

0 个答案:

没有答案