NLP:多个块来训练随机森林

时间:2021-07-16 14:56:37

标签: python nlp chunks

我有一个具有以下形式的数据集: dataset = [{'author: XXX, 'text': XXX},...,{'author: XXX, 'text': XXX}] 我想在每个文本中创建多个大小为 200 的块以进行训练与他们一起随机森林。

一般来说,如果你有一个文本,你可以使用这个函数访问块

text = textwrap.wrap(text, width = 200, break_long_words = False)

但就我而言,我有两个问题:

  1. 如何在每个文本中访问
  2. 如何将每个块与其键匹配,键也是分类任务的标签。

我的目标是以数据帧形式创建一个数据集,其中块中的第一列是作者。

0 个答案:

没有答案