我正在尝试使用SparkR将内部部署hdf中的数据加载到R-Studio。
当我这样做时:
SELECT 'abcde' type,
NVL(SUM(something),0) value
FROM tableA a
LEFT OUTER JOIN tableB b
ON a.id=b.id
GROUP BY type;
然后这个:
df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
source = "com.databricks.spark.csv")
我明白了:
str(df_hadoop)
然而,这不是我正在寻找的df,因为csv中有13个字段我正在尝试从hdfs加载。
我有一个包含csv的13个字段的模式,但是我在哪里或如何告诉SparkR?
答案 0 :(得分:1)
如果您尝试以下操作:
df <- createDataFrame(sqlContext,
data.frame(a=c(1,2,3),
b=c(2,3,4),
c=c(3,4,5)))
str(df)
你也可以
Formal class 'DataFrame' [package "SparkR"] with 2 slots
..@ env:<environment: 0x139235d18>
..@ sdf:Class 'jobj' <environment: 0x139230e68>
Str()确实显示了df的表示形式,它是一个指针而不是data.frame。而只是使用
df
或
show(df)