我正在尝试平衡大多数类别的数据占99%而稀有类别的数据占1%的数据。我的响应变量是二进制变量,而我的独立变量都是二进制,整数和类别变量。
我正在使用ROSE包的ROSE功能,但出现以下错误: “ rose.sampl(n,N,p,ind.majo,majoY,ind.mino,minoY,y,classy, ROSE的当前实现仅处理连续和分类变量。”
我知道该错误是由于我的独立变量引起的,但是我无法弄清楚该错误的主要原因是什么以及如何解决该错误。您有这种错误的经验吗?
答案 0 :(得分:0)
我也有类似的消息。原来我的自变量之一是应该作为数值的difftime对象。
ROSE软件包的文档指出,由于其precision.meas和roc.curve函数,它接受整数或数字格式的连续变量,以及因子格式的分类变量。 ROSE功能可能相同。知道变量的类别会有所帮助,但请考虑将您的二进制列分解为因数,或确保您的其他变量遵循这些数据类型。