将200行的批次合并为1行的熊猫数据框

时间:2018-07-21 19:52:15

标签: python pandas dataframe

是否有一种方法可以将200行的熊猫数据帧合并为一行。该数据集由数百万个帖子组成,我正尝试按批次(配置文件级别而不是消息级别)训练模型。

图像的下三行是我的熊猫数据框(data ['Body] [:2]):

Cow

我有兴趣获取以下输出,并且该批处理变量表示我的批处理熊猫数据帧(batch_data ['Body] [0])的第一行:

line1 = "I'm a beast"
line2 = "Ofocurse, that's great"
line3 = "Hey John, what's up?"

有人有什么建议吗?或者可以将我指向一个方向,而不是一个接一个地

亲切的问候,

萨拉

1 个答案:

答案 0 :(得分:2)

使用str.cat

df = pd.DataFrame({'lines':["I'm a beast", 
                           "Ofocurse, that's great", 
                           "Hey John, what's up?"]})

只是

>>> df.lines.str.cat(sep=', ')

"I'm a beast, Ofocurse, that's great, Hey John, what's up?"

sep是分隔符。您可以更改为任何合适的

>>> df.lines.str.cat(sep=' ')
"I'm a beast Ofocurse, that's great Hey John, what's up?"