Django多个查询优化

时间:2017-01-24 00:56:01

标签: python django django-queryset

我有一个Django视图,它返回数千个字符串之间编辑距离的映射。这些字符串是MyModel类的参数。我在myView函数中计算距离。

我描述了这段代码并意识到循环中的queryset消耗了大量时间。

我该如何优化呢?

# models.py
class MyModel(models.Model):
    str1 = models.CharField(max_length=300)
    str2 = models.CharField(max_length=300)

# views.py
def compare(a, b):
    return Levenshtein.distance(a, b) / max(len(a), len(b))

def myView(request):    
    query_set = MyModel.objects.filter(....)
    size = query_set.count()

    arr = numpy.zeros(size ** 2).reshape(size, size)

    for i in range(size):
        m1 = query_set[i].str1
        for j in range(size):
            m2 = query_set[j].str1
            arr[i][j] = compare(m1, m2)

    json_out = json.dumps({'data': arr.tolist()})
    return HttpResponse(json_out, content_type="application/json")

修改

我认为问题与数据库访问有关,因为我尝试了类似的方法,但使用外部txt文件存储数据并且速度更快:

# file.txt
[{'par1': ....}, {'par1': ....}, ...]

# views.py
def myView(request):
    with open('file.txt', 'r') as out:
        data = out.read()
    size = len(data)

    arr = numpy.zeros(size ** 2).reshape(size, size)

    for i in range(size):
        for j in range(size):
            m1 = data[i]['par1']
            m2 = data[j]['par1']
            arr[i][j] = compare(m1, m2)

    json_out = json.dumps({'data': arr.tolist()})
    return HttpResponse(json_out, content_type="application/json")

1 个答案:

答案 0 :(得分:0)

myView实际上有多少查询?对于count()然后是实际数据应该是1 - 或者可能是2。但我会从验证这一点开始。我使用https://github.com/dobarkod/django-queryinspect,但大多数人使用https://github.com/jazzband/django-debug-toolbar来查找正在执行的查询数。