Question

我有一个熊猫数据框，其结构如下：

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我得到的原始数据具有重复的ID，如果将每个唯一ID的文本连接起来，则会得到一个结果文档。其中一些ID重复数百次，导致生成大量文本，我想将其归结为一次观察。

我不确定如何遍历和创建新文档。同样不确定熊猫是否是存储大量文本的正确数据结构（这些是转录的通话记录-其中一些通话时间超过30分钟）。将不胜感激任何指针。

Answer 1

IIUC：

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

Answer 2

如果没有groupby

(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]: 
ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

通过结合文本熊猫制作新的数据框

2 个答案: