因此,我的输入文件是一个很大的文件,其中包含一个列表。它具有数千行。列表中的每个值都是0或1。还有另一列指定与每个列表关联的值。但是,将我的数据通过pandas train_test_split传递后,嵌套列表的末端似乎与列表的其余部分分开了。
我尝试使用pandas.read_csv和scikit train_test_split函数,但这似乎无法解决问题。 我也尝试过在pandas.read_csv中使用dtype参数,但这也不起作用。
data = pandas.read_csv('file_to_be_read', sep=',',)
X_train, X_test = train_test_split(data, test_size = 0.3, random_state = 42)
输入文件: [[0,0,0,0,1,0,0,0,0,0],[0,1,0,0,0,0,0,0,0,0,0] ...,[0 ,0,0,0,0,0,0,0,1,0]] 4.567645
结果输出:
[[0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0]... [0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0] 4.567645
所需的输出:
[[0,0,0,0,1,0,0,0,0,0], [0,1,0,0,0,0,0,0,0,0] ..., [0,0,0,0,0,0,0,0,1,0]] 4.567645
从本质上讲,我只想从原始文件中随机抽取几行数据,然后将其放入另一个文件中。