标签: python hadoop hive pyspark apache-zeppelin
我正在学习Hadoop环境,对不起,如果这些是如此愚蠢的问题!
我将数据(Kaggle Outbrain点击预测)存储到HIVE,我使用了RDD。 然后我想使用Zeppelin spark2.pyspark.来使用python函数。
HIVE
spark2.pyspark.
当我用%jdbc(hive)调用数据时,我可以看到它。
%jdbc(hive)
我的问题是;
如何在zeppelin上播放数据帧或者我是否必须创建数据帧?
如何启动python分析部分?如果我做任何改变会影响HIVE数据吗?