我有以下列表:
print(sentences_fam)
>>>[['30973', 'ok'],
['3044', 'ok'],
['53690', 'fd', '65', 'ca'],
['36471', 'none','good','standing'],
['j6426', 'none'],
['500861', 'm', 'br'],
['j0076', 'none'],
['mf4422', 'ok'],
['jf1816', 'father', '64', 'ca'],
['500854', 'no', 'fam', 'none', 'hx'],
['54480n', 'none'],
['mf583', 'none'],
...]
print (len(sentences_fam))
>>> 1523613
列表的长度不同,并且包含各种不同的字符串。 我正在尝试删除所有包含关键字“ none”的列表。基于上面的列表,我想要的输出应如下所示。
[['30973', 'ok'],
['3044', 'ok'],
['53690', 'fd', '65', 'ca'],
['500861', 'm', 'br'],
['mf4422', 'ok'],
['jf1816', 'father', '64', 'ca'],
...]
我的列表理解能力还不是很好,所以我不确定该怎么做。我曾尝试将此列表转换为数据帧,但是我没有运气,因为每个字符串都被分配了一个单独的列,而且我还没有找到将数据再次格式化为列表列表的好方法。我需要那种格式才能将数据传递到word2vec库。
基本上,整个列表是正文,每个子列表是一个句子。另外请记住,我将需要将此应用到较大的列表中,因此性能/效率可能很重要。
答案 0 :(得分:0)
filtered_list = [sublist for sublist in sentences_fam if "none" not in sublist]