我的数据框中有两列:文字和类别
示例文本:实际文本数据要大得多。两列用|
分隔Text|Category
I want to get financial advise|financial advise
can I get my loan approved?| loan query
how many years of credit history required?|credit card query
我想分析文本列并预测类别。 在实际数据中,有100个这样的类别。这样做的最佳方法是什么?我是用R语言做的。
答案 0 :(得分:0)
您的任务可以在子任务上分割:
转换"类别"变量值为整数。
流程"文字"使用"tidy text"方法将变量转换为简单值。
应用其中一个模型进行多类分类,例如,像Multiclass Classification with XGBoost in R
这是解决任务的非常通用的方法。