我遇到Pyspark的问题:当我使用Pyspark导入数据集时,即使我的列是数字,我的所有列都被视为字符串。
当我使用Pandas导入数据时,我没有遇到这个问题。
我实际上正在使用一个平台来开发:Dataiku。数据已经在平台上,我用这段代码导入它们:
# Example: Read the descriptor of a Dataiku dataset
mydataset =
dataiku.Dataset("Extracts___Retail_Master_Data___Product_Hierarchy_HDFS")
# And read it as a Spark dataframe
df = dkuspark.get_dataframe(sqlContext, mydataset)
我无法找到将数据导入正确格式的方法。
感谢。
答案 0 :(得分:1)
在Dataiku中有两个概念:存储类型和含义。因此,当您浏览数据集时,您会在每个列名称下方看到它们 (输入灰色,意思是蓝色)
意义是Dataiku认为根据该列中存储的内容最适合的类型。
在您的情况下,您应该转到摘要___ Retail_Master_Data ___ Product_Hierarchy_HDFS 数据集设置 - > 架构 - > 设置正确的列类型 - > 保存强>
如果您想获得更多详细信息,请参阅文档页面