Question

我有一个包含三列{PatientID，Name，Description}的数据框。数据框中的记录具有以下形式，即针对相同患者ID和名称的多个描述。

我想在描述中找到经常使用的单词。输出应为以下形式

我在Ipython中使用以下代码

for index, record in patientdf.iterrows():
    freqs = Counter(record['Description'].split())
    print freqs.most_common(1)

这给了我经常使用的每一行描述栏。我想频繁使用单词来对抗患者的唯一ID。怎么做？

Answer 1

u = df.groupby("PatientID")
list123 = []
list111 = []
p = u.last()
for i in u:
    list111.append(i[1].Description.sum())

u["text"] = list111

for i in q.text:
    freqs = Counter(i.split())
    print freqs.most_common(1)
    list123.append(freqs.most_common(1)[0][0])

p["Frequent word"] = list123

这应该有效

如何在Ipython中针对唯一ID附加多行数据帧

1 个答案: