有没有人找到熊猫错误数据类型推断的解决方案?

时间:2019-07-06 20:30:25

标签: pandas apache-spark

我曾尝试将Pandas用于POC(概念验证项目),因为我认为更多的队友会更容易采用(通常我将Scala Spark用于ETL)。熊猫使我的数据类型发生了大约一半的变化(例如,通过将完全不必要的小数添加到整数中以及其他无意义的更改,例如浮点数上过多的额外小数,当我将其包含在POC管道中时会引起各种下游问题。例如,“ 1”毫无理由地变为“ 1.0”;这实际上将整数转换为浮点数(这是一个突变!不好...)。在一个非常狭窄的数据集上,这可能很好,但是在一个宽数据集上,这成为一个严重的问题,每次阅读CSV文件时,总是需要特别地强制转换很多列类型。我正在辩论是否应该跳过甚至对Pandas进行研究并直接进入Spark,或者是否有一个简单的解决方案(我“我从未遇到过Spark的这种问题)。我也想知道考拉是否可以解决其中的任何一个问题(因为它是Spark上的Pandas,也许它将使用Spark的数据推断而不是Pandas数据推断)。

1 个答案:

答案 0 :(得分:1)

您遇到的问题可能与NaN的存在有关,即将整数列更改为浮点数(请参见this)。有一些进展,但仍处于实验阶段。