我希望建立一个监督学习系统,所有数据都是绝对的。我的系统应该能够预测用于修理设备的维修部件(目标变量),并且我的信息包括有关修理类型的信息(是否由技术人员完成等),使用的部件,问题与设备等所有这些都是分类数据。
我的数据集看起来像这样,Part_No是我应该能够预测的东西
SVC_ACCT_ID
SHIP_TO_CD
SERVICE_TYPE
NOTIFICATION_TYPE
SCENARIO
REPAIR_TYPE
CRTD_DT
COMPONENT_CD
ISSUE_CD
SERIAL_NO
PRODUCT_NO
PART_NO
COMPTIA_CD
COMPTIA_MOD
。
每个都包含分类信息,我尝试了标签编码和一个热编码,具体取决于列中唯一值的数量。我的目标变量有大约8,000个类,但其中许多只有一次表示。我的模型应该能够捕获这些信息。我尝试了各种分类器,但它一直在运行。我的方法应该是什么?