为单词指定唯一的数字标识符

时间:2017-05-22 10:31:38

标签: python string python-2.7 list

任务

我正在尝试为字符串中的单词分配一个数字标识符。

代码

我目前做了以下事情:

mystr = 'who are you you are who'

str_values = mystr.split()
list_values = [str(i) for i, w in enumerate(mystr.split())]

输出:

>>> str_values
['0', '1', '2', '3', '4', '5']
>>> list_values
['who', 'are', 'you', 'you', 'are', 'who']

查询/所需输出

mystr包含重复的单词,因此我想每次为每个单词分配一个数字而不是不同的数字,但不确定我应该如何开始这样做。因此,我希望list_values输出以下内容:

['0', '1', '2', '2', '1', '0']

3 个答案:

答案 0 :(得分:3)

你可以借助另一个清单来做到这一点 -

n = []
output = [n.index(i) for i in mystr.split() if i in n or not n.append(i)]

首先n是空列表。现在列表理解迭代mystr.split()的所有元素。如果满足条件,它会在列表n中添加元素的索引。

现在的条件。有两个部分or。首先,它检查n中是否存在该元素。如果是,则获取元素的索引。如果不是,则转到第二部分,它只是将元素附加到列表n。现在append()返回None。这就是为什么我在它之前添加了一个。因此,该条件将得到满足,并且它将为新插入的元素提供索引。

基本上if条件的第一部分限制n中的重复元素添加,第二部分添加。

答案 1 :(得分:1)

我们可以分两个阶段工作:

  • 首先我们构建一个字典来映射索引上的单词,因为它们还不存在,
  • 接下来我们使用字典来获取单词标识符。

像:

identifiers = {}
idx = 0
for word in mystr.split():
    if word not in identifiers:
        identifiers[word] = idx
        idx += 1

list_values = [identifiers[word] for word in mystr.split()]

这会产生:

>>> [identifiers[word] for word in mystr.split()]
[0, 1, 2, 2, 1, 0]

如果需要,您还可以使用str(..)将标识符转换为字符串,但我不明白为什么会这样做:

>>> [str(identifiers[word]) for word in mystr.split()]
['0', '1', '2', '2', '1', '0']

该算法通常适用于 O(n)

答案 2 :(得分:1)

您需要使用字典来跟踪已经看过的单词

word_map = {}
word_id_counter = 0
def word_id(word):
    global word_id_counter
    if word in word_map:
        return word_map[word]
    else:
        word_map[word] = word_id_counter
        word_id_counter += 1
        return word_map[word]

要避免使用全局变量,可以将其包装在类

class WordIdGenerator:
    word_map = {}
    word_id_counter = 0
    def word_id(self, word):
        if word in self.word_map:
            return self.word_map[word]
        else:
            self.word_map[word] = self.word_id_counter
            self.word_id_counter += 1
            return self.word_map[word]

你可以像这样使用它:

gen = WordIdGenerator()

[gen.word_id(w) for w in 'who are you you are who'.split()]

输出将是:

[0, 1, 2, 2, 1, 0]