LDA:每个文档最少单词数的良好经验法则吗?

时间:2017-10-27 23:39:01

标签: machine-learning nlp lda

我正在使用LDA或Hierarchical LD​​A创建语义空间。我正在制作约45000篇文章的集合,其中一些很长(例如,Moby Dick)。其他人相对较短。

我的计划是将文本分成更小的块,并将每个块视为“文档”,以便生成语义空间。

制作每份文件需要多长时间,有什么好的经验法则?我的理解是LDA [比LSI更多]更喜欢使用更长的文本,因此我不打算将文本分成段落,而是打算将它们分成段落和相邻的段落,直到我得到200个术语(在文本预先发布之后)处理,删除停用词等。)

这是一个很好的数字吗?

这将产生类似于3,800,000,000个培训文件。

LDA和HDP-LDA的答案有何不同?

0 个答案:

没有答案