我有一个单独的文件,其中包含438个句子(所以它不是很大)。但是,我想知道我是否可以使用主题建模系统告诉我哪些句子更相关。有可能吗?
正如我在所有关于主题建模的论文和主题中看到的那样,这些系统通常基于非常大的语料库。我想知道系统在如此小的数据集上的准确度。
与此同时,我的主要目的不是为文本进行主题建模,但我想将它作为一个特征(两个句子是否属于同一个主题而不是)来完成另一项任务。
我还想知道主题是如何确定的?每个主题建模工具中是否有任何预定义的主题集?或者它们是用户定义的主题?
最好的问候,
答案 0 :(得分:3)
是的,这是可能的。将每个句子视为标准主题建模技术中的文档,例如Latent Dirichlet Allocation(LDA)。
主题不是先验确定的。在LDA中,主题实质上是对术语的分配。您只需要预先指定主题的数量。频繁共现的词语往往属于同一主题。
回答你的第二个问题:“同时,我的主要目的不是为文本做主题建模,但我想把它作为一个特征(两个句子是否属于同一个主题而不是)来做另一项任务。“......
在计算theta矩阵(NxK)(N:=#docs,K:=#topics)之后,您可以计算这些N个分布(每个文档一个)上的KL-divergence等指标,以了解哪些文档是彼此有局部关系的。