我正在使用以下代码在Python3 +上运行SVM(概率模型)。
InputStream inputStream = getClass().getResourceAsStream("/example.txt")
我的数据集有0.24mln行和38个虚拟特征(已经处理了虚拟陷阱)。我在70%的基础(火车基地)上运行此代码。并将其应用于30%的碱(测试基础)。代码运行正常。那里没有错误。 现在我面临的问题如下:
如果有人能解释为什么会这样吗?我为Iris Data运行了相同的代码,它给了我适当的概率分布。但对于我的数据,它给了我很多时间。再次,重申一下:目标变量:" 0" &安培; " 1&#34 ;;自变量:37个虚拟变量,其值为" 1"或" 0"。我照顾了虚拟陷阱。在我的整体数据集(0.24mln)中,1的数量是39k。在我的火车数据集中,1s的数量是总行数0.16ml中的26k。