我使用scikit-learn的shuffle
函数来重排数据集。但是我想知道改组的映射。例如,给定一个数据集D
并假设我将其改组,那么我想知道实例的旧索引是什么。有快速的方法吗?想提供一个将当前索引映射到旧索引的字典吗?
答案 0 :(得分:-1)
我对scikit-learn不太熟悉,但我认为你可以改组数据集索引列表(即包含数字0..len(数据集)-1的列表),然后使用混洗列表重新索引数据集。希望它有意义。
类似的东西:
from random import shuffle
dataset = ["1", "2", "3"]
indices = range(len(dataset))
shuffle(indices)
shuffled_dataset = [dataset[i] for i in indices]
执行此代码后,索引列表将新索引映射到旧索引。例如。如果indices [0] = 2,则shuffled_dataset中的元素0是数据集中的元素2.
提供代码并没有使用scikit-learn,但应该可以使用scikit-learn中的方法和类来应用相同的想法