Pyspark数据帧子集

时间:2017-10-21 12:04:29

标签: python hadoop pyspark transformation

以下是我的数据框

id name categroy

1 naveen a

2 sriknat b

3 raghu c

4 ramya d

5 nagraj e

6 Tina a

7 George a

现在我需要根据id列

将数据帧划分为多个部分

我的输出应该是一个数据帧中的1,2,3行和另外一个数据帧中的4,5,6,7

我尝试了下面的逻辑没有工作

df_test=eres_bkp.registerTempTable("df")
test=sqlCtx.sql("select * from eres_bkp where id between 0 and 3")
train=sqlCtx.sql("select * from eres_bkp where id between 5 and 7")

请帮助。

0 个答案:

没有答案