向量化系列/列表功能

时间:2019-09-13 08:10:08

标签: python pandas

我正在尝试使用sklearn解决分类问题。有几个数字特征和一个分类(一种),看起来像这样:

0       88,215,53,269,417,1,17,239,331,60,57,306,277,9...
1       268,419,357,18,331,59,57,99,154,155,76,412,122...
2       242,383,381,96,216,188,49,385,448,103,438,419,...
3       243,377,384,269,46,138,437,279,280,420,161,74,...
4       268,419,357,18,331,59,57,99,154,155,76,412

这些不是多个功能的值,它只是一列!

我决定添加新的二进制功能,以显示此行中此功能是否存在数字。 (因此,也许还有另一种解决方法?) 我需要转换为一个DataFrame,该列的列数等于此功能中唯一数字的数量,行数等于此功能中示例的数量(10 ** 3)。如果开始时第n行中的数字m在[n,m]中,则需要放置1。因此,这是一种文本向量化器。

我尝试使用DictVectorizer,但是遇到了一些问题,因为这是一个系列,而DV就我所需要的都需要DataFrame。

0 个答案:

没有答案