我正在创建一个python模型,该模型将基于文本对给定的文档进行分类。因为每个文档仍然需要人工人工审阅,所以我正在创建一个建议平台,该平台还将为用户提供给定文档所属的n个顶级类别。此外,每个文档可以属于多个类别。我有一套训练有素的文件,里面装满了富文本及其标签。
我想对每个文档进行回归以获得每个分类的概率得分,并返回得分最高的5个类别。
我研究了贝叶斯分类模型和推荐系统,我认为逻辑回归可以更好地返回得分。我是机器学习的新手,并希望能为根据此类问题建模的任何建议或示例提供帮助。谢谢。
编辑:具体来说,我的问题是我应该如何通过逻辑回归分析文本数据以进行ML建模?是否需要使用Word2Vec / Doc2Vec或词袋模型以矢量格式表示文本?
答案 0 :(得分:0)
简而言之,构建一个multi-class或multi-label classification模型。然后calibrate您的模型输出。 t1
或Word2Vec
模型均可用于构建这样的模型。
长版本。参见下图。这是this论文中的图1。您模型的输出将是logits,您可以在logit上应用softmax(多类)或Sigmoid(多标签)变换。如果您希望对分类器输出有更多的信心,那么本文中描述的校准步骤可能就是您想要执行的步骤。此步骤是使用附加的验证数据集将分类器输出转换为真实正确可能性的表示。