通过结合文本熊猫制作新的数据框

时间:2018-09-21 18:59:50

标签: python pandas hadoop dataframe text

我有一个熊猫数据框,其结构如下:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我得到的原始数据具有重复的ID,如果将每个唯一ID的文本连接起来,则会得到一个结果文档。其中一些ID重复数百次,导致生成大量文本,我想将其归结为一次观察。

我不确定如何遍历和创建新文档。同样不确定熊猫是否是存储大量文本的正确数据结构(这些是转录的通话记录-其中一些通话时间超过30分钟)。将不胜感激任何指针。

2 个答案:

答案 0 :(得分:2)

IIUC:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

答案 1 :(得分:2)

如果没有groupby

(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]: 
ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object