nlp - 主题模型可以用在小文本上吗？

我有一个单独的文件，其中包含438个句子（所以它不是很大）。但是，我想知道我是否可以使用主题建模系统告诉我哪些句子更相关。有可能吗？

正如我在所有关于主题建模的论文和主题中看到的那样，这些系统通常基于非常大的语料库。我想知道系统在如此小的数据集上的准确度。

与此同时，我的主要目的不是为文本进行主题建模，但我想将它作为一个特征（两个句子是否属于同一个主题而不是）来完成另一项任务。

我还想知道主题是如何确定的？每个主题建模工具中是否有任何预定义的主题集？或者它们是用户定义的主题？

最好的问候，

是的，这是可能的。将每个句子视为标准主题建模技术中的文档，例如Latent Dirichlet Allocation（LDA）。

主题不是先验确定的。在LDA中，主题实质上是对术语的分配。您只需要预先指定主题的数量。频繁共现的词语往往属于同一主题。

回答你的第二个问题：“同时，我的主要目的不是为文本做主题建模，但我想把它作为一个特征（两个句子是否属于同一个主题而不是）来做另一项任务。“......

在计算theta矩阵（NxK）（N：=＃docs，K：=＃topics）之后，您可以计算这些N个分布（每个文档一个）上的KL-divergence等指标，以了解哪些文档是彼此有局部关系的。