我有一个数据集,其中包含多个文本列,这些列必须用作机器学习模型的功能以进行多类分类。
例如
功能(全部文字) 目标(文本类)
feature1 feature2 feature3 feature4 -- target1
任何人都可以建议如何准备输入功能,以及什么是获得最大准确性的最佳方法,如果可能的话,请分享示例代码/该代码的链接以供参考,因为我对解决问题并没有见识。清楚地。
这就像news_group的分类问题。
答案 0 :(得分:0)
假设您以新闻标题/段落作为输入,您想对其类别进行分类,例如政治,游戏,商业。请注意,一个新闻可能在许多标签下。
为此,您可以搜索主题建模,其目的是查找数据的类别/类别。
使用不同的2个分类器,此link可以很好地说明这个问题。
答案 1 :(得分:0)
我的建议是根据文本列创建多个词嵌入,然后使用函数式 API 在神经网络中组合这些嵌入。