根据条件从现有的标记和元组创建新的标记和元组

时间:2016-08-12 12:26:47

标签: python loops tuples token tokenize

这与previous question非常相关,但我很难适应我的用例。

我有一句话:"Forbes Asia 200 Best Under 500 Billion 2011"

我有像这样的令牌:

oldTokens = [u'Forbes', u'Asia', u'200', u'Best', u'Under', u'500', u'Billion', u'2011']

前一个解析器找出应该有位置或数字槽的位置的索引:

numberTokenIDs =  {(7,): 2011.0, (2,): 200.0, (5,6): 500000000000.00}
locationTokenIDs = {(0, 1): u'Forbes Asia'}

令牌ID对应于有位置或数字的令牌的索引,目标是获取一组新的令牌,如:

newTokens = [u'ForbesAsia', u'200', u'Best', u'Under', u'500Billion', u'2011']

使用新的数字和位置标记ID也许(为了避免索引越界异常):

numberTokenIDs =  {(5,): 2011.0, (1,): 200.0, (4,): 500000000000.00}
locationTokenIDs = {(0,): u'Forbes Asia'}

基本上我想通过新的简化令牌集,并能够最终创建一个名为的新句子:

"LOCATION_SLOT NUMBER_SLOT Best Under NUMBER_SLOT NUMBER_SLOT"

通过新的令牌集并使用LOCATION_SLOTNUMBER_SLOT替换正确的tokenID。如果我使用当前的数字和位置令牌ID进行此操作,我会得到:

"LOCATION_SLOT LOCATION_SLOT NUMBER_SLOT Best Under NUMBER_SLOT NUMBER_SLOT NUMBER_SLOT".

我该怎么做?

另一个例子是:

Location token IDs are:  (0, 1)
Number token IDs are:  (3, 4)

旧的sampleTokens [u'United', u'Kingdom', u'USD', u'1.240', u'billion']

我想要同时删除令牌,还要更改位置和号码令牌ID,以便能够替换句子,如:

sampleTokens[numberTokenID] = "NUMBER_SLOT"
sampleTokens[locationTokenID] = "LOCATION_SLOT"

这样替换的令牌是[u'LOCATION_SLOT', u'USD', u'NUMBER_SLOT']

注意,如果有多个值,则连接应该连接元组中的所有值(元组也可以包含> 2个元素,例如The United States of America)。

1 个答案:

答案 0 :(得分:1)

这应该有效(如果我理解正确的话):

token_by_index = dict(enumerate(oldTokens))
groups = numberTokenIDs.keys() + locationTokenIDs.keys()
for group in groups:
    token_by_index[group[0]] = ''.join(token_by_index.pop(index)
                                       for index in group)
newTokens = [token for _, token in sorted(token_by_index.items(),
                                          key=lambda (index, _): index)]

找到新的令牌ID:

new_index_by_token = dict(map(lambda (i, t): (t, i), enumerate(newTokens))
numberTokenIDs = {(new_index_by_token[token_by_index[group[0]]],): value
                  for group, value in numberTokenIDs.items()}
locationTokenIDs = {(new_index_by_token[token_by_index[group[0]]],): value
                    for group, value in locationTokenIDs.items()}