Question

假设我们有一定数量的可能字符串：

possible_strings_list = ['foo', 'bar', 'baz', 'qux', 'spam', 'ham', 'eggs']

并接收已知为其中之一的新字符串。我们想为每个新字符串分配一个整数，例如

if new_string == 'foo':
    return 0
elif new_string == 'bar':
    return 1
...

在Python 3.6中，最快的方法是什么？我尝试了几种方法，到目前为止使用字典是最快的：

list_index 2.7494255019701086
dictionary 0.9412809460191056
if_elif_else 2.10705983400112
lambda_function 2.6321219780365936
tupple_index 2.751029207953252
ternary 1.931659944995772
np_where 15.610908019007184

然而，我或多或少是一个Python新手，如果有其他更快的解决方案，我很感兴趣。你有什么建议吗？

我完整的testig代码：

import timeit
import random
import numpy as np

def list_index(i):
    return(possible_strings_list.index(i))

def dictionary(i):
    return possible_strings_dict[i]

def tupple_index(i):
    return possible_strings_tup.index(i)


def if_elif_else(i):
    if i == 'foo':
        return 1
    elif i == 'bar':
        return 2
    elif i == 'baz':
        return 3
    elif i == 'qux':
        return 4
    elif i == 'spam':
        return 5
    elif i == 'ham':
        return 6
    elif i == 'eggs':
        return 7

def ternary(i):
    return 0 if i == 'foo' else 1 if i == 'baz' else 2 if i == 'bar' else 3 if i == 'qux' else 4 if i == 'spam'else 5 if i == 'ham' else 6

n = lambda i: 0 if i == 'foo' else 1 if i == 'baz' else 2 if i == 'bar' else 3 if i == 'qux' else 4 if i == 'spam'else 5 if i == 'ham' else 6
def lambda_function(i):
    return n(i)

def np_where(i):
    return np.where(possible_strings_array == i)[0][0]

##
def check(function):
    for i in testlist:
        function(i)

possible_strings_list = ['foo', 'bar', 'baz', 'qux', 'spam', 'ham', 'eggs']
testlist = [random.choice(possible_strings_list) for i in range(1000)]
possible_strings_dict = {'foo':0, 'bar':1, 'baz':2, 'qux':3, 'spam':4, 'ham':5, 'eggs':6}
possible_strings_tup = ('foo', 'bar', 'baz', 'qux', 'spam', 'ham', 'eggs')
allfunctions = [list_index, dictionary, if_elif_else, lambda_function, tupple_index, ternary, np_where]

for function in allfunctions:
    t = timeit.Timer(lambda: check(function))
    print(function.__name__, t.timeit(number=10000))

Answer 1

字典查找是执行此搜索的最快方法。在进行这样的分析时，通常会比较每个过程的Time Complexity。

对于字典查找，时间复杂度是＆＃34;常数时间＆＃34;或O（1）。虽然这可能意味着它通常是算法可以采用的步长的整数值，但在这种情况下它实际上就是一个。

其他方法将需要迭代（或者在if elses遍历的情况下 - 这实际上是类似的方法）。这些范围从需要查看所有值O（n）到需要查看某些值O（log n）。

由于n是检查集的大小，并且随着集合变大，结果中的差异也会出现，字典始终优于显示的其他选项。

没有比O（1）更快的方法。您所展示的方法的唯一缺点是随着集合的增长可能需要更多内存，这被称为算法的空间复杂度。但在这种情况下，由于我们在集合中每个项目只需要一个值，因此空间复杂度将为O（n），这可以忽略不计。

从一般的优化意义上讲，重要的是要考虑当前解决方案中存在多少复杂性，以及它在改进复杂性方面有多大意义。如果要进行改进，它们应该旨在获得不同的性能层，例如从O（n）到O（log n）或O（log n）到O（1）。

_{图片提供：http://bigocheatsheet.com/}

微优化往往是在同一复杂性层面进行优化的情况，而这些优化层往往不具有建设性。

执行字符串查找的最快方法？

1 个答案: