同时枚举两个列表

时间:2020-03-30 07:18:46

标签: python string list nlp text-mining

我有两个列表: 1.IPA符号列表-M 2.单词列表-N

现在,我需要创建第三个列表X = [N,M],对于在单个单词中找到的每个IPA符号,我必须将1分配给新列表,将0分配给新列表。例如,如果M = ['ɓ' 'u','l','i','r','t','ə','w','a','b'],为简单起见,N只有两个词= ['ɓuli', 'rutə'],则输出应如下所示 X = [[1,1,1,1,0,0,0,0,0,0], [0,1,0,0,1,1,1,0,0,0]]

所以这是一种共现矩阵,但更简单-因为我不需要保留该符号在单词中出现的次数。当在适当位置的单词中出现符号时,我只需要给X赋1。也许我想得太多了,但似乎找不到找到两个列表索引的方法。 这是我的代码段:

M = ['ɓ', 'u', 'l', 'i', 'r', 't', 'ə', 'w', 'a', 'b'] 
N = ['ɓuli', 'rutə']
X = np.zeros((len(N), len(M)))

for n_idx in range(len(N)):
    print('Current word index', n_idx)
    for symbol in N[n_idx]:
        if symbol in M:
            print(symbol, 'found, at word index', n_idx, ', and symbol index')
            # if found then ad to X at proper position

#Expected result
X = [[1,1,1,1,0,0,0,0,0,0], 
     [0,1,0,0,1,1,1,0,0,0]]

3 个答案:

答案 0 :(得分:1)

您可以这样做。只需将您需要检查的单词与其他列表进行循环比较即可。

M=['a','e','i','o','u']
N=['stack','overflow']
output=[]
for words in N:
    words_output=[]
    for v in M:
        o = 1 if v in words else 0
        words_output.append(o)
    output.append(words_output)

output:
[[1, 0, 0, 0, 0], [0, 1, 0, 1, 0]]

答案 1 :(得分:1)

您可以在此行建立这样的索引:

X = [[1 if e in s else 0 for e in M] for s in N]

这是一个在字母和单词上循环的双重理解列表。但是,您应该使用sklearn之类的库来更有效地执行此类操作(例如https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

答案 2 :(得分:0)

尝试这个

M = ['ɓ', 'u', 'l', 'i', 'r', 't', 'ə', 'w', 'a', 'b'] 
N = ['ɓuli', 'rutə']
result = []
for n in N:
    tmp = []
    characters = list(n)
    for m in M:
        tmp.append(1 if m in characters else 0)
    result.append(tmp)
print(result)
#[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
# [0, 1, 0, 0, 1, 1, 1, 0, 0, 0]]