我从sklearn.linear_model训练了一个LogisticRegression模型。我用完全相同的数据进行了两次测试(用于训练和测试)。在一次测试中,数据是从本地csv文件中读取的。在其他测试数据是从网络套接字收到的。但是,我从predict_proba输出得到了不同的预测概率结果。
是否有任何可能的原因可以解释这个问题?或者代码必定存在某种问题?我使用的是Python 3.4.4,scikit-learn版本是0.18.1。
谢谢!
一些更新:
数据精度存在问题,因此两个数据源之间存在差异。现在我在读取CSV文件时舍入到5个小数点,并且对于网络数据也舍入到5个小数。我现在仔细检查数据是否完全相同 - 包括训练集(我检查第一行和最后一行)和测试数据。但是,我仍然看到不同的预测概率结果。还有其他可能的原因吗?网络套接字是串行的,不应该有订单问题。