我正在使用R执行分析,我将实现四种算法。
1. RF
2. Log Reg
3. SVM
4. LDA
我有50个预测变量和1个目标变量。我的所有预测变量和目标变量都只是二进制数0和1。
我有以下问题:
Should I convert them all into factors?
Converting them into factors, and applying RF algorithms give 100% accuracy, I am very much surprised to see that as well.
Also, for other algorithms, how should i treat my variables priorly, before feeding them into my other algorithms.
由于
答案 0 :(得分:1)
如果变量/预测变量是分类的,那么最好将它们转换为因子。否则,它们很可能会被视为数值。
如果您正在进行分类任务,那么最好将目标/响应变量作为一个因素。
最好查看您使用的函数的文档,以确保它们不会将因子转换为数值。
答案 1 :(得分:1)
使用adaboost ...
看看不同的kaggle内核,特别是Mercedes内核,以了解实现adaboost的想法。
https://www.kaggle.com/c/mercedes-benz-greener-manufacturing/kernels
数据集由数字和因子以及0s,1组成。