用自然语言比较几种语料库的最佳方法是什么?

时间:2017-09-01 14:01:30

标签: python nlp nltk lda topic-modeling

我一直在以自然语言为研究项目(使用Gensim和python)进行LDA主题叙事报告模型。我有几个小的语料库(每个1400到200个文档 - 我知道,那个很小!)我想比较一下,但我不知道如何做到这一点,除了看每个LDA模型(例如使用pyLDAviz)。我的学术背景不是CS,我对NLP还有点新鲜。

在语料库/主题模型中比较主题有哪些好方法?例如,是否可以估计两个LDA模型重叠多少?还是有其他方法来评估几个语料库的主题相似性?

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

将语料库加入一个大型语料库,使用对您来说很好的参数做一个主题模型,然后比较主题在子单元之间的分布方式。

这是我所知道的唯一清洁方法。注意,不同的随机种子产生不同的主题模型,所有其他参数都固定不存在语料库的 主题模型。

一个例子(子科目是科学论文发表的不同年份)可以在this abstract中找到(完全引用:

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
} 

)。