Question

我正在寻求翻译SQL查询以使用RAPIDS。考虑下面的简化查询：

(SELECT min(a), max(b), c
FROM T
GROUP BY c) AS result

我已经验证了以下代码，但这是最佳解决方案吗？是否需要对组密钥进行排序？有没有更干净/更惯用的书写方式？

from pygdf import DataFrame as gdf

T = gdf(...)
df = gdf({'a':T.a, 'c':T.c}).groupby('c').min().sort_values(by='c')
df['max_b'] = gdf({'b':T.b, 'c':T.c}).groupby('c').max().sort_values(by='c').max_b
result = gdf({'a': df.min_a, 'b': df.max_b, 'c':df.c})

Answer 1

您可以使用.agg函数重写聚合，以使其更简单：

from pygdf import DataFrame as gdf

T = gdf(...)
df = gdf({'a':T.a, 'b': T.b, 'c':T.c}).groupby('c').agg({'a': 'min', 'b': 'max'})
result = gdf({'a': df.min_a, 'b': df.max_b, 'c':df.c})

Answer 2

您可以使用BlazingSQL，它是基于RAPIDS构建的SQL引擎。完全公开，我为BlazingSQL工作。

from blazingsql import BlazingContext
bc = BlazingContext()

# Create Table from GDF
bc.create_table('myTableName', gdf)

# Query
result = bc.sql('SELECT min(a), max(b), c FROM main.myTableName GROUP BY c').get()
result_gdf = result.columns

#Print GDF 
print(result_gdf)

如何在RAPIDS中实现SQL Groupby

2 个答案: