我的网络应用程序中有一个非常大的MySQL查询,如下所示:
query =
SELECT video_tag.video_id, (sum(user_rating.rating) * video.rating_norm) as score
FROM video_tag
JOIN user_rating ON user_rating.item_id = video_tag.tag_id
JOIN video ON video.id = video_tag.video_id
WHERE item_type = 3 AND user_id = 1 AND rating != 0 AND video.website_id = 2
AND rating_norm > 0 AND video_id NOT IN (1,2,3) GROUP BY video_id
ORDER BY score DESC LIMIT 20"
此查询连接三个表(video,video_tag和user_rating),对结果进行分组,并执行一些基本数学运算来计算每个视频的分数。由于表格很大,这需要大约2秒才能运行。
我怀疑使用NumPy数组进行此计算会更快,而不是让SQL完成所有这些工作。 'video'和'video_tag'中的数据是常量 - 所以我可以将这些表加载到内存中一次,而不必每次都ping SQL。
然而,虽然我可以将这三个表加载到三个单独的数组中,但我有时间复制上面的查询(特别是JOIN和GROUP BY部分)。有没有人使用NumPy数组复制SQL查询的经验?
谢谢!
答案 0 :(得分:3)
使这个练习变得尴尬的是NumPy数组的单数据类型约束。例如,GROUP BY操作隐式地要求(至少)一个字段/列的连续值(用于聚合/求和)和一个字段/列用于分区或分组。
当然,NumPy 重新排列可以表示每个列使用不同数据类型的2D数组(或SQL表)(也称为“字段”),但我发现这些复合数组很难处理。因此,在下面的代码片段中,我只使用传统的 ndarray 类来复制OP问题中突出显示的两个SQL操作。
首先,创建两个NumPy数组(A& B),每个数组代表一个SQL表。 A的主键位于第1列; B的外键也在第1栏。
import numpy as NP
A = NP.random.randint(10, 100, 40).reshape(8, 5)
a = NP.random.randint(1, 3, 8).reshape(8, -1) # add column of primary keys
A = NP.column_stack((a, A))
B = NP.random.randint(0, 10, 4).reshape(2, 2)
b = NP.array([1, 2])
B = NP.column_stack((b, B))
现在(尝试)使用NumPy数组对象复制 JOIN :
# prepare the array that will hold the 'result set':
AB = NP.column_stack((A, NP.zeros((A.shape[0], B.shape[1]-1))))
def join(A, B) :
'''
returns None, side effect is population of 'results set' NumPy array, 'AB';
pass in A, B, two NumPy 2D arrays, representing the two SQL Tables to join
'''
k, v = B[:,0], B[:,1:]
dx = dict(zip(k, v))
for i in range(A.shape[0]) :
AB[i:,-2:] = dx[A[i,0]]
def group_by(AB, col_id) :
'''
returns 2D NumPy array aggregated on the unique values in column specified by col_id;
pass in a 2D NumPy array and the col_id (integer) which holds the unique values to group by
'''
uv = NP.unique(AB[:,col_id])
temp = []
for v in uv :
ndx = AB[:,0] == v
temp.append(NP.sum(AB[:,1:][ndx,], axis=0))
temp = NP. row_stack(temp)
uv = uv.reshape(-1, 1)
return NP.column_stack((uv, temp))
对于测试用例,它们会返回正确的结果:
>>> A
array([[ 1, 92, 50, 67, 51, 75],
[ 2, 64, 35, 38, 69, 11],
[ 1, 83, 62, 73, 24, 55],
[ 2, 54, 71, 38, 15, 73],
[ 2, 39, 28, 49, 47, 28],
[ 1, 68, 52, 28, 46, 69],
[ 2, 82, 98, 24, 97, 98],
[ 1, 98, 37, 32, 53, 29]])
>>> B
array([[1, 5, 4],
[2, 3, 7]])
>>> join(A, B)
array([[ 1., 92., 50., 67., 51., 75., 5., 4.],
[ 2., 64., 35., 38., 69., 11., 3., 7.],
[ 1., 83., 62., 73., 24., 55., 5., 4.],
[ 2., 54., 71., 38., 15., 73., 3., 7.],
[ 2., 39., 28., 49., 47., 28., 3., 7.],
[ 1., 68., 52., 28., 46., 69., 5., 4.],
[ 2., 82., 98., 24., 97., 98., 3., 7.],
[ 1., 98., 37., 32., 53., 29., 5., 4.]])
>>> group_by(AB, 0)
array([[ 1., 341., 201., 200., 174., 228., 20., 16.],
[ 2., 239., 232., 149., 228., 210., 12., 28.]])