使用train_test_split生成测试和训练数据会导致基础数据发生变化

时间:2017-02-07 09:46:09

标签: python pandas machine-learning scikit-learn sklearn-pandas

我正在使用trai_test_split中的sklearn.cross_validation将源CSV数据文件拆分为训练和测试数据,使用简单的Python代码:

from sklearn.cross_validation import train_test_split
import pandas as pd

dataset = pd.read_csv(fPath + 'source.csv')

train, test = train_test_split(dataset, test_size = 0.2)
train.to_csv(fPath + "train.csv", index=False, index_label=False, header=False)
test.to_csv(fPath + "test.csv", index=False, index_label=False, header=False)

数据在比例和随机化方面正确分割,但我注意到新生成的TEST和TRAIN文件中生成的基础数据与原始源数据略有不同,重新组合并逐个比较侧。不是每一行和一个单元格,但对于某些人来说,这里和那里存在着微小但显着的差异。

以下输入和输出很难读取,但它是原始数据(18行)以及TEST和TRAIN组合输出数据的示例。我按第一列对所有数据进行了排序,然后差异如下所示。这些是%数字,因此您可以看到,差异很小且随机,但并非无关紧要。这是预期的吗?

-0.00095    -0.00048    -0.14%  -0.00109    -0.00011    -0.00015    0.00016
-0.00055    0.00021 0.06%   0.0006  0.00075 0.00086 0.00076
-0.00044    -0.00034    -0.10%  -0.00112    -0.00123    -0.00127    -0.00124
-0.00027    -0.00023    -0.02%  -0.00187    -0.0028 -0.00286    -0.00182
-0.00021    -0.00024    0.07%   0.0016  0.00166 0.00022 0.00044
-6.00E-05   -6.00E-05   0.01%   1.00E-05    -4.00E-05   0.00013 0.00099
-5.00E-05   0.00016 0.01%   -0.00019    5.00E-05    0.00039 4.00E-05
-2.00E-05   -1.00E-05   0.04%   0.0004  0.00053 0.0009  0.00114
2.00E-05    4.00E-05    -0.05%  -0.00205    -0.00285    -0.00151    -0.00206
8.00E-05    -0.00048    0.00%   0.00038 0.00114 0.00111 0.00112
8.00E-05    0.00147 0.04%   0.00037 0.00033 0.00029 0.00021
8.00E-05    4.00E-05    -0.02%  -0.00027    -0.00018    -0.00015    -0.00014
8.00E-05    -1.00E-05   -0.02%  0   -3.00E-05   -0.00078    -0.00125
0.00015 -0.0001 -0.07%  -0.0004 -0.00114    -0.00099    -0.00071
0.00017 0.00043 0.11%   0.00044 0.00027 -6.00E-05   -4.00E-05
0.00029 0.00019 0.08%   0.00112 0.00167 -0.0019 -0.0014
0.00054 0.00063 0.08%   0.00088 0.00095 0.00097 0.00046
0.00086 -6.00E-05   -0.05%  -0.00028    0.00012 -0.0007 -0.00215
0.00115 0.00221 0.03%   -0.00033    0.00011 -0.00078    -0.00076

-0.00095    -0.00048    -0.14%  -0.00109    -0.00011    -0.00015    0.00016
-0.00055    0.00021 0.06%   0.0006  0.00075 0.00086 0.00076
-0.00044    -0.00034    -0.10%  -0.00112    -0.00123    -0.00127    -0.00124
-0.00021    -0.00024    0.07%   0.0016  0.00166 0.00022 0.00044
-6.00E-05   -6.00E-05   0.01%   1.00E-05    -4.00E-05   0.00013 0.00099
-5.00E-05   0.00016 0.01%   -0.00019    5.00E-05    0.00039 4.00E-05
-2.00E-05   -1.00E-05   0.04%   0.0004  0.00053 0.0009  0.00114
2.00E-05    4.00E-05    -0.05%  -0.00205    -0.00285    -0.00151    -0.00206
8.00E-05    -0.00048    0.00%   0.00038 0.00114 0.00111 0.00112
8.00E-05    4.00E-05    -0.02%  -0.00027    -0.00018    -0.00015    -0.00014
8.00E-05    0.00147 0.04%   0.00037 0.00033 0.00029 0.00021
8.00E-05    -1.00E-05   -0.02%  0   -3.00E-05   -0.00078    -0.00125
0.00015 -0.0001 -0.07%  -0.0004 -0.00114    -0.00099    -0.00071
0.00017 0.00043 0.11%   0.00044 0.00027 -6.00E-05   -4.00E-05
0.00029 0.00019 0.08%   0.00112 0.00167 -0.0019 -0.0014
0.00054 0.00063 0.08%   0.00088 0.00095 0.00097 0.00046
0.00086 -6.00E-05   -0.05%  -0.00028    0.00012 -0.0007 -0.00215
0.00115 0.00221 0.03%   -0.00033    0.00011 -0.00078    -0.00076

0.00%   0.00%   0.00%   0.00%   0.00%   0.00%   0.00%
0.00%   0.00%   0.00%   0.00%   0.00%   0.00%   0.00%
0.00%   0.00%   0.00%   0.00%   0.00%   0.00%   0.00%
-0.01%  0.00%   -0.08%  -0.35%  -0.45%  -0.31%  -0.23%
-0.02%  -0.02%  0.06%   0.16%   0.17%   0.01%   -0.06%
0.00%   -0.02%  0.00%   0.02%   -0.01%  -0.03%  0.10%
0.00%   0.02%   -0.03%  -0.06%  -0.05%  -0.05%  -0.11%
0.00%   -0.01%  0.09%   0.25%   0.34%   0.24%   0.32%
-0.01%  0.05%   -0.05%  -0.24%  -0.40%  -0.26%  -0.32%
0.00%   -0.05%  0.02%   0.07%   0.13%   0.13%   0.13%
0.00%   0.00%   0.00%   0.00%   0.00%   0.00%   0.00%
0.00%   0.01%   0.00%   -0.03%  -0.02%  0.06%   0.11%
-0.01%  0.01%   0.05%   0.04%   0.11%   0.02%   -0.05%
0.00%   -0.05%  -0.18%  -0.08%  -0.14%  -0.09%  -0.07%
-0.01%  0.02%   0.03%   -0.07%  -0.14%  0.18%   0.14%
-0.03%  -0.04%  -0.01%  0.02%   0.07%   -0.29%  -0.19%
-0.03%  0.07%   0.13%   0.12%   0.08%   0.17%   0.26%
-0.03%  -0.23%  -0.07%  0.01%   0.00%   0.01%   -0.14%

0 个答案:

没有答案