Question

我有以下列表：

print(sentences_fam)

>>>[['30973', 'ok'], 
   ['3044', 'ok'], 
   ['53690', 'fd', '65', 'ca'], 
   ['36471', 'none','good','standing'], 
   ['j6426', 'none'], 
   ['500861', 'm', 'br'], 
   ['j0076', 'none'], 
   ['mf4422', 'ok'], 
   ['jf1816', 'father', '64', 'ca'], 
   ['500854', 'no', 'fam', 'none', 'hx'], 
   ['54480n', 'none'], 
   ['mf583', 'none'],
   ...]

print (len(sentences_fam))
>>> 1523613

列表的长度不同，并且包含各种不同的字符串。我正在尝试删除所有包含关键字“ none”的列表。基于上面的列表，我想要的输出应如下所示。

[['30973', 'ok'], 
['3044', 'ok'], 
['53690', 'fd', '65', 'ca'],  
['500861', 'm', 'br'],  
['mf4422', 'ok'], 
['jf1816', 'father', '64', 'ca'],
...]

我的列表理解能力还不是很好，所以我不确定该怎么做。我曾尝试将此列表转换为数据帧，但是我没有运气，因为每个字符串都被分配了一个单独的列，而且我还没有找到将数据再次格式化为列表列表的好方法。我需要那种格式才能将数据传递到word2vec库。

基本上，整个列表是正文，每个子列表是一个句子。另外请记住，我将需要将此应用到较大的列表中，因此性能/效率可能很重要。

Answer 1

filtered_list = [sublist for sublist in sentences_fam if "none" not in sublist]

从列表列表中删除包含特定字符串的列表

1 个答案: