Question

我正在尝试使用sklearn解决分类问题。有几个数字特征和一个分类（一种），看起来像这样：

0       88,215,53,269,417,1,17,239,331,60,57,306,277,9...
1       268,419,357,18,331,59,57,99,154,155,76,412,122...
2       242,383,381,96,216,188,49,385,448,103,438,419,...
3       243,377,384,269,46,138,437,279,280,420,161,74,...
4       268,419,357,18,331,59,57,99,154,155,76,412

这些不是多个功能的值，它只是一列！

我决定添加新的二进制功能，以显示此行中此功能是否存在数字。（因此，也许还有另一种解决方法？）我需要转换为一个DataFrame，该列的列数等于此功能中唯一数字的数量，行数等于此功能中示例的数量（10 ** 3）。如果开始时第n行中的数字m在[n，m]中，则需要放置1。因此，这是一种文本向量化器。

我尝试使用DictVectorizer，但是遇到了一些问题，因为这是一个系列，而DV就我所需要的都需要DataFrame。

向量化系列/列表功能

0 个答案: