我有一个熊猫数据框,其结构如下:
ID TEXT
1 Start of document
1 middle
1 end of document
2 start of document 2
2 middle
2 end of document 2
我得到的原始数据具有重复的ID,如果将每个唯一ID的文本连接起来,则会得到一个结果文档。其中一些ID重复数百次,导致生成大量文本,我想将其归结为一次观察。
我不确定如何遍历和创建新文档。同样不确定熊猫是否是存储大量文本的正确数据结构(这些是转录的通话记录-其中一些通话时间超过30分钟)。将不胜感激任何指针。
答案 0 :(得分:2)
IIUC:
df.groupby('ID').TEXT.apply(' '.join)
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object
答案 1 :(得分:2)
如果没有groupby
(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]:
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object