如何获得熊猫数据框中每列的单词频率

时间:2019-08-12 11:57:39

标签: python pandas nlp

我只是想获取每个产品ID的每列的值计数(请参阅附件中的img)。我正在尝试查看将其放入ID 12和ID 24的产品名称的含义。因此,我已经拆分了产品名称(通过在空间上拆分),然后我希望计算每个ID每列每个单词的出现频率。

data=pd.read_csv(r'C:\Users\products.csv') #already split on space
ids=data.productID.unique().tolist()
cols=['1','2','3']

dflist=[]
for instid in ids:
    filtdata=data.loc[data['productID']==instid]
    dflist.append(filtdata)

然后我这样做:

[![for idxdf in range(len(dflist)): 
    for colid in cols:
        print("====",dflist\[idxdf\]\['productID'\].unique(),":",dflist\[idxdf\]\[colid\].value_counts())][1]][1]

所以从本质上来说,我正在为每个列的每个ID获取一个值计数。.唯一的事情是,采用这种格式很难,因为我希望在某种表中使用它。有什么建议吗?

0 个答案:

没有答案