具有如下所示的CSV数据(在“示例数据”部分中),尝试使用spark-shell分析数据。
创建一个案例类: 案例类AadharDetails(日期:整数,注册者:字符串,PrivateAgency:字符串,状态:字符串,地区:字符串,分区:String,PinCode:整数,性别:字符串,年龄:整数,Aadhar生成的:整数,拒绝的:整数,移动电话号码: Int,email_id:Int)
尝试创建以下DataFrame时:
val df = spark.read.csv(“ / home / anil / spark-2.0.2-bin-hadoop2.6 / aadhaar_data.csv”)。map(attributes => AadharDetails(attributes(0).trim。 toInt,attributes(1),attributes(2),attributes(3),attributes(4),attributes(5),attributes(6).trim.toInt,attributes(7),attributes(8).trim.toInt, attributes(9).trim.toInt,attributes(10).trim.toInt,attributes(11).trim.toInt,attributes(12).trim.toInt))。toDF()
获取错误:值调整不是任何成员
我缺少任何基础知识吗?任何帮助,将不胜感激。
样本数据:
20150519,NSDL电子政务基础设施有限公司,Karvy数据管理服务,比哈尔邦,罗塔斯,纳斯里甘尼,821310,M,23,2,0,0,1 20150519,NSDL电子政务基础架构有限公司,Karvy数据管理服务,比哈尔邦,罗塔斯,纳斯里甘j,821310,M,24,5,0,0,3