使用Pyspark导入数据:数据类型错误

时间:2017-11-09 13:04:33

标签: python pyspark

我遇到Pyspark的问题:当我使用Pyspark导入数据集时,即使我的列是数字,我的所有列都被视为字符串。

当我使用Pandas导入数据时,我没有遇到这个问题。

我实际上正在使用一个平台来开发:Dataiku。数据已经在平台上,我用这段代码导入它们:

# Example: Read the descriptor of a Dataiku dataset
mydataset = 
dataiku.Dataset("Extracts___Retail_Master_Data___Product_Hierarchy_HDFS")
# And read it as a Spark dataframe
df = dkuspark.get_dataframe(sqlContext, mydataset)

我无法找到将数据导入正确格式的方法。

感谢。

1 个答案:

答案 0 :(得分:1)

在Dataiku中有两个概念:存储类型和含义。因此,当您浏览数据集时,您会在每个列名称下方看到它们 (输入灰色,意思是蓝色)

enter image description here

意义是Dataiku认为根据该列中存储的内容最适合的类型。

在您的情况下,您应该转到摘要___ Retail_Master_Data ___ Product_Hierarchy_HDFS 数据集设置 - > 架构 - > 设置正确的列类型 - > 保存

如果您想获得更多详细信息,请参阅文档页面

https://doc.dataiku.com/dss/latest/schemas/index.html