Spark SQL-基于值的数据分区

时间:2018-10-16 09:46:41

标签: scala apache-spark

这是我的数据集

EMPLOYEE_ID,FIRST_NAME,LAST_NAME,EMAIL,PHONE_NUMBER,HIRE_DATE,JOB_ID,SALARY,COMMISSION_PCT,MANAGER_ID,DEPARTMENT_ID
100,Steven,King,SKING,515.123.4567,17-JUN-03,AD_PRES,24000, - , - ,90
101,Neena,Kochhar,NKOCHHAR,515.123.4568,21-SEP-05,AD_VP,17000, - ,100,90
102,Lex,De Haan,LDEHAAN,515.123.4569,13-JAN-01,AD_VP,17000, - ,100,90

我需要划分数据工资范围。总分区-3 1. <10000 2. 100001> x <20000 3.> 200001 在Hadoop Mapreduce中,我们可以使用Partitionar类中的getPartiton方法。在Spark Sql中,如何实现相同?

0 个答案:

没有答案