我正在尝试使用sklearn解决分类问题。有几个数字特征和一个分类(一种),看起来像这样:
0 88,215,53,269,417,1,17,239,331,60,57,306,277,9...
1 268,419,357,18,331,59,57,99,154,155,76,412,122...
2 242,383,381,96,216,188,49,385,448,103,438,419,...
3 243,377,384,269,46,138,437,279,280,420,161,74,...
4 268,419,357,18,331,59,57,99,154,155,76,412
这些不是多个功能的值,它只是一列!
我决定添加新的二进制功能,以显示此行中此功能是否存在数字。 (因此,也许还有另一种解决方法?) 我需要转换为一个DataFrame,该列的列数等于此功能中唯一数字的数量,行数等于此功能中示例的数量(10 ** 3)。如果开始时第n行中的数字m在[n,m]中,则需要放置1。因此,这是一种文本向量化器。
我尝试使用DictVectorizer,但是遇到了一些问题,因为这是一个系列,而DV就我所需要的都需要DataFrame。