我希望从.json doc推断数据模式,然后从类型为" Customer"
的数据库加载数据我目前使用的当前代码确实有效,但我面临的问题是,couchbase数据库中的所有文档都不包含完全相同的模式。当模式从一系列文档中扫描时,推断的模式将不包含我需要的所有数据字段。当我加载数据帧时,我得到一个包装数组错误。
Python代码
%pyspark
df = sqlContext.read.format("com.couchbase.spark.sql.DefaultSource").option("schemaFilter", "type=\"Customer\"").load()
如果您之前遇到此问题,欢迎所有建议如何解决。 非常感谢!!