Question

我的数据框如下：

            a
0     [8, 10]
1  [12, 7, 9]

如您所见，列a包含一个列表。该列表中的数字在我们的域中具有含义，我想将其用作功能。我的预期输出如下：

   Tag_7  Tag_8  Tag_9  Tag_10  Tag_12
0      0      1      0       1       0
1      1      0      1       0       1

我使用了一些从互联网上找到的方法，它们满足了我的期望，但是这些方法存在执行时间问题。其中之一如下：

pd.get_dummies(df.a.apply(pd.Series).stack().astype(int), prefix='Tag').sum(level=0)

我认为此方法对小型数据集很有用。对我而言，它没有用。我需要帮助。提前致谢。祝你有美好的一天

Answer 1

尝试scikit-learn看看是否有帮助

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
cols = np.unique(np.concatenate(df.a))
df_final = pd.DataFrame(mlb.fit_transform(df.a), columns=cols).add_prefix('T_')

Out[213]:
   T_7  T_8  T_9  T_10  T_12
0    0    1    0     1     0
1    1    0    1     0     1

如果您需要挤压每个ms，则使用chain.from_iterable的速度比np.concatenate快，并使用np.char.add至T_的列名

from sklearn.preprocessing import MultiLabelBinarizer
from itertools import chain

mlb = MultiLabelBinarizer()
cols = np.char.add('T_', np.unique(list(chain.from_iterable(df.a))).astype(str))
df_final = pd.DataFrame(mlb.fit_transform(df.a), columns=cols)

Answer 2

有点骇客，但您可以这样做：

df['bitsum'] = df['input'].apply(lambda lst: sum(1 << x for x in lst))
pd.Series(np.array(list(map(lambda x: f'{x:b}', df['bitsum'])))).apply(lambda x: x[::-1]).str.split('')

不确定它是否运行更快。如果您知道有多少功能，可以将1 << x替换为1 << (n_max - x)，这样a）摆脱了字符串反转apply(lambda x: x[::-1])，b）使用bin而不是{ {1}}似乎也更快。

将包含熊猫系列的列转换为特征

2 个答案: