获取数据集混乱的映射

时间:2014-03-31 10:27:02

标签: python scikit-learn

我使用scikit-learn的shuffle函数来重排数据集。但是我想知道改组的映射。例如,给定一个数据集D并假设我将其改组,那么我想知道实例的旧索引是什么。有快速的方法吗?想提供一个将当前索引映射到旧索引的字典吗?

1 个答案:

答案 0 :(得分:-1)

我对scikit-learn不太熟悉,但我认为你可以改组数据集索引列表(即包含数字0..len(数据集)-1的列表),然后使用混洗列表重新索引数据集。希望它有意义。

类似的东西:

from random import shuffle
dataset = ["1", "2", "3"]
indices = range(len(dataset))
shuffle(indices)
shuffled_dataset = [dataset[i] for i in indices]

执行此代码后,索引列表将新索引映射到旧索引。例如。如果indices [0] = 2,则shuffled_dataset中的元素0是数据集中的元素2.

提供代码并没有使用scikit-learn,但应该可以使用scikit-learn中的方法和类来应用相同的想法