如何在python中用标记化文本创建元组?

时间:2018-10-24 13:52:15

标签: python-3.x nlp

我是python新手,需要一些帮助来理解它。

考虑下面的spam.csv示例

enter image description here

我创建了仅包含字符的标记化文本。

train['tokenized_text'] = train['V2'].apply(lambda x:([x for x in x.split() if x.isalpha()]))

现在,我想要一个元组数组作为(tokenized_text,label)我如何在这里生成元组?

1 个答案:

答案 0 :(得分:1)

使用列表理解:

data = [(i,j) for i,j in zip(df['tokenized_text'], labels)]