python - NLP：多个块来训练随机森林 - Thinbug

NLP：多个块来训练随机森林

时间：2021-07-16 14:56:37

标签： python nlp chunks

我有一个具有以下形式的数据集： dataset = [{'author: XXX, 'text': XXX},...,{'author: XXX, 'text': XXX}] 我想在每个文本中创建多个大小为 200 的块以进行训练与他们一起随机森林。

一般来说，如果你有一个文本，你可以使用这个函数访问块

text = textwrap.wrap(text, width = 200, break_long_words = False)

但就我而言，我有两个问题：

如何在每个文本中访问
如何将每个块与其键匹配，键也是分类任务的标签。

我的目标是以数据帧形式创建一个数据集，其中块中的第一列是作者。

0 个答案:

没有答案