在为它们生成虚拟列之前过滤数据框中的类别

时间:2017-04-15 15:23:56

标签: python pandas dummy-variable

我在某些列中有一个带有分类值的数据集(一行可能包含多个类别,由,分隔)。例如:

  user hashtags
0   u1      a,b
1   u2      a,c
2   u3        c

我想为这些类别制作虚拟列。我对数据集中出现次数很少的类别也不感兴趣。目前,我正在生成虚拟列,然后删除少数出现的列,如下所示(chunk是原始数据帧):

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)

# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)

请注意,我还为发生率较低的类别数添加了一列。

这种方法有效,但速度很慢。我对如何改进它的想法是先获取所有独特的类别及其数量,然后删除低计数的类别, 生成虚拟列。

我想问你这个问题:这种做法会改善什么吗?如何实施? (np.unique会想到return_counts=True)。此外,有没有更好的方法解决这个问题?

(注意:数据集已经是SparseDataFrame

1 个答案:

答案 0 :(得分:1)

使用UITableView和布尔切片可以加快速度..让我知道这是否适合你。

numpy