大家好!
作为项目的一部分,我需要使用我拥有的标记数据构建文本分类器。数据点由单个句子和每个句子的3个类别之一组成。我用LDA从这个数据库中提取了5个主题。
我想要尝试的是,我想使用这些主题来确定一个看不见的句子所属的类。我正在考虑培训带有5个指标的监督模型,该指标显示给出这5个主题的句子的主题分布。
问题在于,对于给出句子的每个主题,我无法获得单独的可能性。我对LDA模型的困惑和得分表示困惑。它们似乎返回单个浮点值。
另外,我知道LDA的监督版本。我想知道我的方法是否有意义。
提前致谢!