Groupby对不返回正确结果的列应用方法

时间:2018-03-29 12:22:21

标签: python dataframe dask

我有以下dask数据框,其中包含以下列:

raw_data.head()

     http_user              dst  dst_port
0      user1      1.1.1.1            80
1      user1      2.2.2.2           443
2      user2      3.3.3.3            80
3      user3      4.4.4.4           443
4      user2      5.5.5.5            80

我执行以下操作

groups = raw_data.groupby(['http_user', 'dst', 'dst_port'])
my_feature = groups.http_method.apply(lambda x: 'CONNECT' in x.values', meta=('name', '?')

尝试计算my_feature.head()给了我非常奇怪的结果

    http_user  dst  dst_port                
     10         -    "domain_name_string1"       False
                     "domain_name_string2"       False
                     "domain_name_string3"       False
                     "domain_name_string4"       False

似乎groupby应用了mixes列。在计算之后在数据帧上应用相同的东西应该是它应该不幸的是我还没有能够在本地重现它。 此外,如果我在列上应用常见聚合,如

groups.http_method.max().compute()

产生正确的结果。使用正确的http_user dstdst_port

raw_data包含大约2.5K行。

这是一个错误吗?有人看到过这种行为吗?

0 个答案:

没有答案