PySpark,通过JSON文件导入模式

时间:2015-08-15 18:49:14

标签: python json apache-spark pyspark apache-spark-sql

tbschema.json看起来像这样:

[{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]

我使用以下代码

加载它
>>> df2 = sqlContext.jsonFile("tbschema.json")
>>> f2.schema
StructType(List(StructField(ACCOUNT,StringType,true),
    StructField(TICKET,StringType,true),StructField(TRANFERRED,StringType,true)))
>>> df2.printSchema()
root
 |-- ACCOUNT: string (nullable = true)
 |-- TICKET: string (nullable = true)
 |-- TRANFERRED: string (nullable = true)
  1. 为什么架构元素会被排序,当我希望元素的顺序与它们在JSON中出现的顺序相同时。

  2. 数据类型integer在派生JSON后已转换为StringType,如何保留数据类型。

0 个答案:

没有答案