首先感谢您的阅读和感谢,如果您能提供任何线索来帮助我解决这个问题。
由于我是Scikit-learn的新手,请不要犹豫,提供任何可以帮助我改进流程并使其更专业的建议。
我的目标是在两个类别之间对数据进行分类。我想找到一个能给我最精确结果的解决方案。目前,我仍在寻找最合适的算法和数据预处理。
在我的数据中,我有24个值:13个是名义上的,6个是二值化的,其他是连续的。这是一行
的例子“RENAULT”;“CLIO III”;“CLIO III(2005-2010)”;“Diesel”; 2010;“HOM”;“_ AAA”;“_ BBB”;“_ CC”; 0; 668.77; 3; “FEVRIER”; “_ DDD”; 0; 0; 0; 1; 0; 0; 0; 0; 0; 0; 247.97
我有大约900K的学习线,我的测试超过100K行
由于我想比较几种算法实现,我想对所有标称值进行编码,以便可以在多个分类器中使用。
我尝试了几件事:
我查看了文档,并在页面Preprocessing和Feature Extraction上找到了这些信息。
我想有办法对所有名义值进行编码,以便它们不会被视为有序。此解决方案可应用于具有大量类别和弱资源的大型数据集。
我有什么方法可以探索不适合我的需求吗?
感谢任何线索和建议。
答案 0 :(得分:1)
要转换无序分类功能,您可以在get_dummies
中尝试pandas
,更多详情可参考其documentation。另一种方法是使用catboost
,它可以直接处理分类要素而不将它们转换为数字类型。