标签: machine-learning lda document-classification
我正在与LDA合作进行文档分类。我在一个部分感到困惑。 我们是否应该使用文档标题或文档内容使用LDA进行分类? 我有一大堆文档,在内容上使用LDA会导致MemoryError甚至少量主题(~5-10)。
据我所知,它需要8 * num_topics * dictionary_size字节的内存,这可能是内存耗尽的原因。它在文档标题上效果更好。
我应该将LDA用于主题吗?还有其他算法如Word2Vec用于内容?