我当前正在使用带有标记文档的自定义语料库
class ClassifyCorpus(object):
def __iter__(self):
with open(train_data) as fp:
for line in fp:
splt = line.split(':')
id = splt[0]
text = splt[1].replace('\n', '')
yield TaggedDocument(text.split(), [id])
查看Brown Corpus的源代码,发现它只是从目录读取并为我处理文档的标记。
我对其进行了测试,但没有看到训练速度的提高。
答案 0 :(得分:1)
您不应使用TaggedBrownCorpus
。它只是一个演示类,用于读取gensim随附的特定微型演示数据集,以进行单元测试和入门教程。
对于磁盘上的数据格式,它以合理的方式执行操作,但是将数据转换为可重复迭代的TaggedDocument
类对象的序列的任何其他有效方法也一样。
因此,如果有帮助,请随时将其用作模型,但不要将其视为要求或“最佳实践”。