我有一个熊猫数据框,其中一列包含文本。我想获得一列出现在整列每一行中的独特单词的列表

时间:2019-07-14 02:46:38

标签: python pandas dataframe

import pandas as pd

r1=['i just got the count', 'come on hold on man']

df=pd.DataFrame(r1,columns=['text'])

所需的输出:

r1 = [['i','just','got','the', 'count'],['come','on','hold', 'man']

在第二行中,“ on”重复两次,并且所需的输出仅显示唯一的单词。

2 个答案:

答案 0 :(得分:0)

尝试:

df['text'].str.split().apply(set)

输出:

0    {got, just, count, the, i}
1         {on, man, come, hold}
Name: text, dtype: object

答案 1 :(得分:0)

只需使用split将r1传递给列表推导。

r1 = [x.split() for x in r1]

enter image description here