Question

我遇到Pyspark的问题：当我使用Pyspark导入数据集时，即使我的列是数字，我的所有列都被视为字符串。

当我使用Pandas导入数据时，我没有遇到这个问题。

我实际上正在使用一个平台来开发：Dataiku。数据已经在平台上，我用这段代码导入它们：

# Example: Read the descriptor of a Dataiku dataset
mydataset = 
dataiku.Dataset("Extracts___Retail_Master_Data___Product_Hierarchy_HDFS")
# And read it as a Spark dataframe
df = dkuspark.get_dataframe(sqlContext, mydataset)

我无法找到将数据导入正确格式的方法。

感谢。

Answer 1

在Dataiku中有两个概念：存储类型和含义。因此，当您浏览数据集时，您会在每个列名称下方看到它们（输入灰色，意思是蓝色）

意义是Dataiku认为根据该列中存储的内容最适合的类型。

在您的情况下，您应该转到摘要___ Retail_Master_Data ___ Product_Hierarchy_HDFS 数据集设置 - ＆gt; 架构 - ＆gt; 设置正确的列类型 - ＆gt; 保存

如果您想获得更多详细信息，请参阅文档页面

https://doc.dataiku.com/dss/latest/schemas/index.html

使用Pyspark导入数据：数据类型错误

1 个答案: