我有一个带有标签的数据集,其中标签是对其余列进行的计算结果。我正在寻找的是基于初始群集数据集的经过训练的模型,可与非群集数据一起重用。
示例:
具有预定义逻辑的现有集群数据(请参阅最后的索引)
(10, 0)
在拥有训练有素的模型之后,我想导入一个没有最后一列的数据集,在该列中机器必须复制与训练有素的模型相同的群集(我有数百个数据集,每个数据集具有数百万行)
a b c d e f g h i k k l m cluster number
1.684348 -0.52414 6/25/2018 10:29:15 AM -1.24432 -1.21429 -0.00079 -2.33773 -0.17967 -0.52374 0.141378 -0.43097 -0.49427 -0.66624 6
1.669928 -0.52414 6/25/2018 10:29:20 AM -1.2442 -1.21429 -0.00079 -2.33773 -0.65248 -0.52374 0.141378 -0.43097 -0.49427 -0.10613 6
1.670026 -0.52414 6/25/2018 10:29:25 AM -1.2442 -1.21429 -0.00079 -2.33773 -0.69763 -0.52374 0.141378 -0.43097 -0.49427 -0.01102 2
1.670123 -0.52414 6/25/2018 10:29:30 AM -1.2442 -1.21429 -0.00079 -2.33773 -0.69715 -0.52374 0.141378 -0.43097 -0.49427 -0.01146 2
1.670123 -0.52414 6/25/2018 10:29:35 AM -1.2442 -1.21429 -0.00079 -2.33773 -0.69786 -0.52374 0.141378 -0.43097 -0.49427 -0.01051 2
1.670123 -0.52414 6/25/2018 10:29:40 AM -1.2442 -1.21429 -0.00079 -2.33773 -0.69789 -0.52374 0.141378 -0.43097 -0.49427 -0.00997 2
有什么建议吗?