我正在使用trai_test_split
中的sklearn.cross_validation
将源CSV数据文件拆分为训练和测试数据,使用简单的Python代码:
from sklearn.cross_validation import train_test_split
import pandas as pd
dataset = pd.read_csv(fPath + 'source.csv')
train, test = train_test_split(dataset, test_size = 0.2)
train.to_csv(fPath + "train.csv", index=False, index_label=False, header=False)
test.to_csv(fPath + "test.csv", index=False, index_label=False, header=False)
数据在比例和随机化方面正确分割,但我注意到新生成的TEST和TRAIN文件中生成的基础数据与原始源数据略有不同,重新组合并逐个比较侧。不是每一行和一个单元格,但对于某些人来说,这里和那里存在着微小但显着的差异。
以下输入和输出很难读取,但它是原始数据(18行)以及TEST和TRAIN组合输出数据的示例。我按第一列对所有数据进行了排序,然后差异如下所示。这些是%数字,因此您可以看到,差异很小且随机,但并非无关紧要。这是预期的吗?
-0.00095 -0.00048 -0.14% -0.00109 -0.00011 -0.00015 0.00016
-0.00055 0.00021 0.06% 0.0006 0.00075 0.00086 0.00076
-0.00044 -0.00034 -0.10% -0.00112 -0.00123 -0.00127 -0.00124
-0.00027 -0.00023 -0.02% -0.00187 -0.0028 -0.00286 -0.00182
-0.00021 -0.00024 0.07% 0.0016 0.00166 0.00022 0.00044
-6.00E-05 -6.00E-05 0.01% 1.00E-05 -4.00E-05 0.00013 0.00099
-5.00E-05 0.00016 0.01% -0.00019 5.00E-05 0.00039 4.00E-05
-2.00E-05 -1.00E-05 0.04% 0.0004 0.00053 0.0009 0.00114
2.00E-05 4.00E-05 -0.05% -0.00205 -0.00285 -0.00151 -0.00206
8.00E-05 -0.00048 0.00% 0.00038 0.00114 0.00111 0.00112
8.00E-05 0.00147 0.04% 0.00037 0.00033 0.00029 0.00021
8.00E-05 4.00E-05 -0.02% -0.00027 -0.00018 -0.00015 -0.00014
8.00E-05 -1.00E-05 -0.02% 0 -3.00E-05 -0.00078 -0.00125
0.00015 -0.0001 -0.07% -0.0004 -0.00114 -0.00099 -0.00071
0.00017 0.00043 0.11% 0.00044 0.00027 -6.00E-05 -4.00E-05
0.00029 0.00019 0.08% 0.00112 0.00167 -0.0019 -0.0014
0.00054 0.00063 0.08% 0.00088 0.00095 0.00097 0.00046
0.00086 -6.00E-05 -0.05% -0.00028 0.00012 -0.0007 -0.00215
0.00115 0.00221 0.03% -0.00033 0.00011 -0.00078 -0.00076
-0.00095 -0.00048 -0.14% -0.00109 -0.00011 -0.00015 0.00016
-0.00055 0.00021 0.06% 0.0006 0.00075 0.00086 0.00076
-0.00044 -0.00034 -0.10% -0.00112 -0.00123 -0.00127 -0.00124
-0.00021 -0.00024 0.07% 0.0016 0.00166 0.00022 0.00044
-6.00E-05 -6.00E-05 0.01% 1.00E-05 -4.00E-05 0.00013 0.00099
-5.00E-05 0.00016 0.01% -0.00019 5.00E-05 0.00039 4.00E-05
-2.00E-05 -1.00E-05 0.04% 0.0004 0.00053 0.0009 0.00114
2.00E-05 4.00E-05 -0.05% -0.00205 -0.00285 -0.00151 -0.00206
8.00E-05 -0.00048 0.00% 0.00038 0.00114 0.00111 0.00112
8.00E-05 4.00E-05 -0.02% -0.00027 -0.00018 -0.00015 -0.00014
8.00E-05 0.00147 0.04% 0.00037 0.00033 0.00029 0.00021
8.00E-05 -1.00E-05 -0.02% 0 -3.00E-05 -0.00078 -0.00125
0.00015 -0.0001 -0.07% -0.0004 -0.00114 -0.00099 -0.00071
0.00017 0.00043 0.11% 0.00044 0.00027 -6.00E-05 -4.00E-05
0.00029 0.00019 0.08% 0.00112 0.00167 -0.0019 -0.0014
0.00054 0.00063 0.08% 0.00088 0.00095 0.00097 0.00046
0.00086 -6.00E-05 -0.05% -0.00028 0.00012 -0.0007 -0.00215
0.00115 0.00221 0.03% -0.00033 0.00011 -0.00078 -0.00076
0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
-0.01% 0.00% -0.08% -0.35% -0.45% -0.31% -0.23%
-0.02% -0.02% 0.06% 0.16% 0.17% 0.01% -0.06%
0.00% -0.02% 0.00% 0.02% -0.01% -0.03% 0.10%
0.00% 0.02% -0.03% -0.06% -0.05% -0.05% -0.11%
0.00% -0.01% 0.09% 0.25% 0.34% 0.24% 0.32%
-0.01% 0.05% -0.05% -0.24% -0.40% -0.26% -0.32%
0.00% -0.05% 0.02% 0.07% 0.13% 0.13% 0.13%
0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
0.00% 0.01% 0.00% -0.03% -0.02% 0.06% 0.11%
-0.01% 0.01% 0.05% 0.04% 0.11% 0.02% -0.05%
0.00% -0.05% -0.18% -0.08% -0.14% -0.09% -0.07%
-0.01% 0.02% 0.03% -0.07% -0.14% 0.18% 0.14%
-0.03% -0.04% -0.01% 0.02% 0.07% -0.29% -0.19%
-0.03% 0.07% 0.13% 0.12% 0.08% 0.17% 0.26%
-0.03% -0.23% -0.07% 0.01% 0.00% 0.01% -0.14%