我想为文本分类实现机器学习或深度学习模型(100个班级)

时间:2019-11-22 09:03:40

标签: python machine-learning text-classification multilabel-classification

我有一个类似于电影情节及其流派的数据集。类的数量大约为100。对于这100个类,我应该选择哪种算法?分类是多标签的,因为1部电影可以具有多种流派 请推荐以下任何人。您可以根据需要随意建议其他模型。

1.Naive Bayesian
2.Neural networks
3.SVM
4.Random forest
5.k nearest neighbours

如果您还在python中提供必要的库,这将很有用

1 个答案:

答案 0 :(得分:2)

机器学习工程中的一个重要步骤包括正确检查数据。您可以从Herby获得一些见识,这些见识决定了选择哪种算法。有时,您可能会尝试多种算法并比较模型,以确保您在数据上尽了最大努力。

由于您没有公开数据,所以我只能给您以下建议:如果您的数据“简单”,这意味着您只需要很少的功能和它们的少量组合即可解决任务,请使用Naive Bayes或k近邻。如果您的数据“中等”困难,则使用随机森林或SVM。如果解决任务需要非常复杂的决策边界,并且需要以非线性方式组合要素的许多维度,请选择神经网络体系结构。

我建议您将python和scikit-learn包用于SVM或Random forest或k-NN。 对于神经网络,请使用keras。

很抱歉,我无法提供您期望解决问题的方法。您的问题提出的范围很广。