我需要对一堆单词进行向量化,我正在寻找更快的方法。
假设我有字符串"blahbla"
,它使用4个不同的字母["a", "b", "h", "l"]
。我创建了一个翻译表{'a': 0, 'b': 1, 'h': 2, 'l': 3}
(对于我所有的单词来说,它都保持不变。)
我的目标是将该单词转换为:[1, 3, 0, 2, 1, 3, 0]
我可以这样做:
word = "blahbla"
symbols = ["a", "b", "h", "l"]
trans_table = {s: i for i, s in enumerate(symbols)}
word = [trans_table[letter] for letter in word]
但是您知道更快的方法吗?
修改 我之前已经说过,该表将保持不变,实际上是在处理所有单词之前计算出的下表:
symbols = [' ', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k',
'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w',
'x', 'y', 'z', 'à', 'â', 'ç', 'è', 'é', 'ê', 'î', 'ï', 'ô',
'û', 'ü']
每个字都将保持不变。抱歉,不清楚。
答案 0 :(得分:1)
给定一个长度为 n 的字符串,您无法提高O( n )的复杂度。我能看到的唯一改进是使用带有内置函数的map
运算符,在本例中为dict.__getitem__
。与使用列表理解相比,这将证明效率更高:
symbols = ["a", "b", "h", "l"]
trans_table = {s: i for i, s in enumerate(symbols)}
word = "blahbla" * 100000
%timeit [trans_table[letter] for letter in word] # 67.6 ms
%timeit list(map(trans_table.__getitem__, word)) # 59.3 ms
答案 1 :(得分:0)
您需要创建自己的映射吗?为什么不只使用ord
函数将Unicode字符转换为其整数值呢?
> word = 'foo'
> list(map(ord, word))
[102, 111, 111]