是否有一种方法可以将200行的熊猫数据帧合并为一行。该数据集由数百万个帖子组成,我正尝试按批次(配置文件级别而不是消息级别)训练模型。
图像的下三行是我的熊猫数据框(data ['Body] [:2]):
Cow
我有兴趣获取以下输出,并且该批处理变量表示我的批处理熊猫数据帧(batch_data ['Body] [0])的第一行:
line1 = "I'm a beast"
line2 = "Ofocurse, that's great"
line3 = "Hey John, what's up?"
有人有什么建议吗?或者可以将我指向一个方向,而不是一个接一个地
亲切的问候,
萨拉
答案 0 :(得分:2)
使用str.cat
df = pd.DataFrame({'lines':["I'm a beast",
"Ofocurse, that's great",
"Hey John, what's up?"]})
只是
>>> df.lines.str.cat(sep=', ')
"I'm a beast, Ofocurse, that's great, Hey John, what's up?"
sep
是分隔符。您可以更改为任何合适的
>>> df.lines.str.cat(sep=' ')
"I'm a beast Ofocurse, that's great Hey John, what's up?"