Apache Zeppelin - 无法使用SparkR从HIVE表加载数据帧

时间:2018-03-12 11:50:17

标签: spark-dataframe apache-zeppelin sparkr

我需要从Hive表加载一个数据框,为此我遵循Apache Spark 2.3文档中的这条指令。(https://spark.apache.org/docs/latest/sparkr.html)。我是用Zeppelin笔记本做的。

有人可以解释如何使用SparkR创建数据框吗?或者我做错了什么?任何答案都表示赞赏。

文档

查询可以用HiveQL表示。 results <- sql("FROM src SELECT key, value")

我的代码:

sp_df <- sql("SELECT * FROM sparkr_test")

我的代码结果:

head(sp_df) [1] “SELECT * FROM sparkr_test”

2 个答案:

答案 0 :(得分:0)

您的数据位于何处,是否已将源数据注册为表格?你需要运行类似的东西:

sql("CREATE TABLE IF NOT EXISTS sparkr_test (column1 INT, column2 STRING ...) USING hive")
sql("LOAD DATA LOCAL INPATH 'path/to/data/data.txt' INTO TABLE sparkr_test")

之前可以查询表格

答案 1 :(得分:0)

我有同样的问题,通过指定库来解决它。

SparkR::sql("select * from mytable")