为什么在训练gensim doc2vec时使用TaggedBrownCorpus

时间:2018-11-29 09:45:05

标签: python gensim corpus doc2vec

我当前正在使用带有标记文档的自定义语料库

class ClassifyCorpus(object):
    def __iter__(self):
        with open(train_data) as fp:
            for line in fp:
                splt = line.split(':')
                id = splt[0]
                text = splt[1].replace('\n', '')
                yield TaggedDocument(text.split(), [id])

查看Brown Corpus的源代码,发现它只是从目录读取并为我处理文档的标记。

我对其进行了测试,但没有看到训练速度的提高。

1 个答案:

答案 0 :(得分:1)

您不应使用TaggedBrownCorpus。它只是一个演示类,用于读取gensim随附的特定微型演示数据集,以进行单元测试和入门教程。

对于磁盘上的数据格式,它以合理的方式执行操作,但是将数据转换为可重复迭代的TaggedDocument类对象的序列的任何其他有效方法也一样。

因此,如果有帮助,请随时将其用作模型,但不要将其视为要求或“最佳实践”。