我正在使用LDA或Hierarchical LDA创建语义空间。我正在制作约45000篇文章的集合,其中一些很长(例如,Moby Dick)。其他人相对较短。
我的计划是将文本分成更小的块,并将每个块视为“文档”,以便生成语义空间。
制作每份文件需要多长时间,有什么好的经验法则?我的理解是LDA [比LSI更多]更喜欢使用更长的文本,因此我不打算将文本分成段落,而是打算将它们分成段落和相邻的段落,直到我得到200个术语(在文本预先发布之后)处理,删除停用词等。)
这是一个很好的数字吗?
这将产生类似于3,800,000,000个培训文件。
LDA和HDP-LDA的答案有何不同?