我是python新手,需要一些帮助来理解它。
考虑下面的spam.csv示例
我创建了仅包含字符的标记化文本。
train['tokenized_text'] = train['V2'].apply(lambda x:([x for x in x.split() if x.isalpha()]))
现在,我想要一个元组数组作为(tokenized_text,label)我如何在这里生成元组?
答案 0 :(得分:1)
使用列表理解:
data = [(i,j) for i,j in zip(df['tokenized_text'], labels)]