我有以下dask数据框,其中包含以下列:
raw_data.head()
http_user dst dst_port
0 user1 1.1.1.1 80
1 user1 2.2.2.2 443
2 user2 3.3.3.3 80
3 user3 4.4.4.4 443
4 user2 5.5.5.5 80
我执行以下操作
groups = raw_data.groupby(['http_user', 'dst', 'dst_port'])
my_feature = groups.http_method.apply(lambda x: 'CONNECT' in x.values', meta=('name', '?')
尝试计算my_feature.head()
给了我非常奇怪的结果
http_user dst dst_port
10 - "domain_name_string1" False
"domain_name_string2" False
"domain_name_string3" False
"domain_name_string4" False
似乎groupby应用了mixes列。在计算之后在数据帧上应用相同的东西应该是它应该不幸的是我还没有能够在本地重现它。 此外,如果我在列上应用常见聚合,如
groups.http_method.max().compute()
产生正确的结果。使用正确的http_user
dst
和dst_port
raw_data
包含大约2.5K行。
这是一个错误吗?有人看到过这种行为吗?