我需要从Hive表加载一个数据框,为此我遵循Apache Spark 2.3文档中的这条指令。(https://spark.apache.org/docs/latest/sparkr.html)。我是用Zeppelin笔记本做的。
有人可以解释如何使用SparkR创建数据框吗?或者我做错了什么?任何答案都表示赞赏。
查询可以用HiveQL表示。
results <- sql("FROM src SELECT key, value")
sp_df <- sql("SELECT * FROM sparkr_test")
head(sp_df)
[1] “SELECT * FROM sparkr_test”
答案 0 :(得分:0)
您的数据位于何处,是否已将源数据注册为表格?你需要运行类似的东西:
sql("CREATE TABLE IF NOT EXISTS sparkr_test (column1 INT, column2 STRING ...) USING hive")
sql("LOAD DATA LOCAL INPATH 'path/to/data/data.txt' INTO TABLE sparkr_test")
之前可以查询表格
答案 1 :(得分:0)
我有同样的问题,通过指定库来解决它。
SparkR::sql("select * from mytable")