Question

是否有一种方法可以将200行的熊猫数据帧合并为一行。该数据集由数百万个帖子组成，我正尝试按批次（配置文件级别而不是消息级别）训练模型。

图像的下三行是我的熊猫数据框（data ['Body] [：2]）：

Cow

我有兴趣获取以下输出，并且该批处理变量表示我的批处理熊猫数据帧（batch_data ['Body] [0]）的第一行：

line1 = "I'm a beast"
line2 = "Ofocurse, that's great"
line3 = "Hey John, what's up?"

有人有什么建议吗？或者可以将我指向一个方向，而不是一个接一个地

亲切的问候，

萨拉

Answer 1

使用str.cat

df = pd.DataFrame({'lines':["I'm a beast", 
                           "Ofocurse, that's great", 
                           "Hey John, what's up?"]})

只是

>>> df.lines.str.cat(sep=', ')

"I'm a beast, Ofocurse, that's great, Hey John, what's up?"

sep是分隔符。您可以更改为任何合适的

>>> df.lines.str.cat(sep=' ')
"I'm a beast Ofocurse, that's great Hey John, what's up?"

将200行的批次合并为1行的熊猫数据框

1 个答案: