使用多列文本作为多类分类的功能

时间:2019-01-10 01:52:10

标签: python-3.x machine-learning multilabel-classification

我有一个数据集,其中包含多个文本列,这些列必须用作机器学习模型的功能以进行多类分类。

例如

功能(全部文字) 目标(文本类)

feature1 feature2 feature3 feature4 -- target1

任何人都可以建议如何准备输入功能,以及什么是获得最大准确性的最佳方法,如果可能的话,请分享示例代码/该代码的链接以供参考,因为我对解决问题并没有见识。清楚地。

这就像news_group的分类问题。

2 个答案:

答案 0 :(得分:0)

假设您以新闻标题/段落作为输入,您想对其类别进行分类,例如政治,游戏,商业。请注意,一个新闻可能在许多标签下。

为此,您可以搜索主题建模,其目的是查找数据的类别/类别。

使用不同的2个分类器,此link可以很好地说明这个问题。

答案 1 :(得分:0)

我的建议是根据文本列创建多个词嵌入,然后使用函数式 API 在神经网络中组合这些嵌入。

参考链接:https://keras.io/guides/functional_api/