标签: pyspark amazon-emr
当在EMR v.5.19.0和5.17.0中通过PySpark运行逻辑回归时,我发现EMR的行为非常令人困惑,其中5.17的AUC返回值明显更高(例如0.65 vs 0.55)。对我来说,这毫无意义,因为我实际上只是更改一个环境变量,该变量指定要运行的EMR版本。我也尝试过在本地运行最后几个Spark版本(2.3.0、2.3.1、2.3.2甚至2.4.0),它们都返回较高的AUC指标。知道会发生什么吗?我没什么主意!