从json文件中推断spark中的数据帧模式

时间:2016-10-20 11:14:12

标签: apache-spark couchbase spark-dataframe

我希望从.json doc推断数据模式,然后从类型为" Customer"

的数据库加载数据

我目前使用的当前代码确实有效,但我面临的问题是,couchbase数据库中的所有文档都不包含完全相同的模式。当模式从一系列文档中扫描时,推断的模式将不包含我需要的所有数据字段。当我加载数据帧时,我得到一个包装数组错误。

Python代码

%pyspark
    df = sqlContext.read.format("com.couchbase.spark.sql.DefaultSource").option("schemaFilter", "type=\"Customer\"").load()

如果您之前遇到此问题,欢迎所有建议如何解决。 非常感谢!!

0 个答案:

没有答案