我很困惑,文本挖掘的非常相似的服务有不同的名称,如主题提取和文本分类/分类。它们之间的概念差异是什么?
主题提取示例: https://www.uclassify.com/browse/uclassify/topics?input=Text
分类示例: https://dandelion.eu/semantic-text/text-classification-demo/
答案 0 :(得分:2)
主题模型方法(主题提取)是无监督方法。因此,您不需要知道每个文档都属于哪些类别(类)[https://en.wikipedia.org/wiki/Topic_model]。 Latent Dirichlet allocation(LDA)是一种主题建模方法。 LDA将文档划分为主题并为主题指定名称。 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 主题模型需要输出集群的数量与集群方法相同。但是他们为每个输出集群分配了一个主题名称。 与主题模型方法相比,文档分类方法(分类)受到监督。所以,他们需要类标签。 [https://en.wikipedia.org/wiki/Document_classification]