我不是数据科学家,也不是数据科学/机器学习的新手。
我的目标是预测某些文本是否属于特定类。
我看起来很天真的海湾来分类不同类的文本,但在这里我只有一个类。最后,我想预测文本是否属于某个类(例如,如果文本类型为technical
,则文本为technical
或political
)。我只有积极的数据集(类型technical
的所有文本)用于培训。
据我所知,Naive海湾需要培训的正面和负面数据集。不确定这是否是此处用于解决问题的最佳算法。如果有的话,想学习更好的方法。感谢。
答案 0 :(得分:0)
您有两种选择:
您可以使用自动编码器,如下所示:
您还可以使用像k-means这样的群集技术,在这种情况下,您需要花费更多时间在功能工程上(选择文本中最相关的功能)。