任务
我正在尝试为字符串中的单词分配一个数字标识符。
代码
我目前做了以下事情:
mystr = 'who are you you are who'
str_values = mystr.split()
list_values = [str(i) for i, w in enumerate(mystr.split())]
输出:
>>> str_values
['0', '1', '2', '3', '4', '5']
>>> list_values
['who', 'are', 'you', 'you', 'are', 'who']
查询/所需输出
mystr
包含重复的单词,因此我想每次为每个单词分配一个数字而不是不同的数字,但不确定我应该如何开始这样做。因此,我希望list_values
输出以下内容:
['0', '1', '2', '2', '1', '0']
答案 0 :(得分:3)
你可以借助另一个清单来做到这一点 -
n = []
output = [n.index(i) for i in mystr.split() if i in n or not n.append(i)]
首先n
是空列表。现在列表理解迭代mystr.split()
的所有元素。如果满足条件,它会在列表n
中添加元素的索引。
现在的条件。有两个部分or
。首先,它检查n
中是否存在该元素。如果是,则获取元素的索引。如果不是,则转到第二部分,它只是将元素附加到列表n
。现在append()
返回None
。这就是为什么我在它之前添加了一个。因此,该条件将得到满足,并且它将为新插入的元素提供索引。
基本上if条件的第一部分限制n
中的重复元素添加,第二部分添加。
答案 1 :(得分:1)
我们可以分两个阶段工作:
像:
identifiers = {}
idx = 0
for word in mystr.split():
if word not in identifiers:
identifiers[word] = idx
idx += 1
list_values = [identifiers[word] for word in mystr.split()]
这会产生:
>>> [identifiers[word] for word in mystr.split()]
[0, 1, 2, 2, 1, 0]
如果需要,您还可以使用str(..)
将标识符转换为字符串,但我不明白为什么会这样做:
>>> [str(identifiers[word]) for word in mystr.split()]
['0', '1', '2', '2', '1', '0']
该算法通常适用于 O(n)。
答案 2 :(得分:1)
您需要使用字典来跟踪已经看过的单词
word_map = {}
word_id_counter = 0
def word_id(word):
global word_id_counter
if word in word_map:
return word_map[word]
else:
word_map[word] = word_id_counter
word_id_counter += 1
return word_map[word]
要避免使用全局变量,可以将其包装在类
中class WordIdGenerator:
word_map = {}
word_id_counter = 0
def word_id(self, word):
if word in self.word_map:
return self.word_map[word]
else:
self.word_map[word] = self.word_id_counter
self.word_id_counter += 1
return self.word_map[word]
你可以像这样使用它:
gen = WordIdGenerator()
[gen.word_id(w) for w in 'who are you you are who'.split()]
输出将是:
[0, 1, 2, 2, 1, 0]