我有一个具有以下形式的数据集: dataset = [{'author: XXX, 'text': XXX},...,{'author: XXX, 'text': XXX}] 我想在每个文本中创建多个大小为 200 的块以进行训练与他们一起随机森林。
一般来说,如果你有一个文本,你可以使用这个函数访问块
text = textwrap.wrap(text, width = 200, break_long_words = False)
但就我而言,我有两个问题:
我的目标是以数据帧形式创建一个数据集,其中块中的第一列是作者。