二进制输出

时间:2017-12-15 22:37:47

标签: machine-learning data-science text-classification naivebayes

我不是数据科学家,也不是数据科学/机器学习的新手。 我的目标是预测某些文本是否属于特定类。 我看起来很天真的海湾来分类不同类的文本,但在这里我只有一个类。最后,我想预测文本是否属于某个类(例如,如果文本类型为technical,则文本为technicalpolitical)。我只有积极的数据集(类型technical的所有文本)用于培训。

据我所知,Naive海湾需要培训的正面和负面数据集。不确定这是否是此处用于解决问题的最佳算法。如果有的话,想学习更好的方法。感谢。

1 个答案:

答案 0 :(得分:0)

您有两种选择:

  1. 您可以使用自动编码器,如下所示:

    • 步骤1:使用您拥有的正面数据进行训练
    • 步骤2:使用错误计算作为分类器:向您已在步骤1中训练过的自动编码器提供新数据,并将数据单元置于高错误状态"异常" (在你的情况下,不属于想要的文本类。)
  2. 您还可以使用像k-means这样的群集技术,在这种情况下,您需要花费更多时间在功能工程上(选择文本中最相关的功能)。