spark csv文件的自定义架构

时间:2017-09-15 19:32:25

标签: pyspark spark-dataframe

我可以在csv文件的spark中定义包含以下子列的模式,并在 KeyFields NonKeyFields

的基础上加入两个文件

KeyFields NonKeyFields
EmpId DOB FirstName LastName联系人Loc1 Loc2 DOJ评论主管

我的样本数据采用以下格式 1242569,11-Sep-95,SANDEEP,KUMAR,9010765550,HYDERABAD,OFFSHORE,16-Jan-16,Passsed Due,NAGALAKSHMI CHALLA

1 个答案:

答案 0 :(得分:0)

是的,你可以在阅读csv文件时这样做:

df = sqlContext.read.load(<path of the file>, schema)