我想对数据集进行简单分类。每个数据都有各种属性,例如日期时间(例如:2018-01-01 13:03:11),人员ID,一些二进制属性(将获取值0或1),一些浮点属性,一些属性可能含有NaN等。
对于每个数据,都有我们要预测的标签。
我想使用python和简单的回归方法。但是由于属性类型不同,我认为我应该以某种方式更改它们,以便它们具有相同的格式,对吗?如果是,请您能帮我怎么做?
例如,我的数据集如下所示:
> data_number date id yes/no duration
> label 0 2018-01-01 15:29:29 1321 0 43.943
> 0 1 2018-03-01 15:18:09 1334 1 98.007
> 1 2 2017-01-01 16:29:29 1393 0 431.10
> 1
标签为0或1。
如果您也向我推荐了一些可以解释这类问题的网页,我将不胜感激。
谢谢
答案 0 :(得分:1)
确定问题类型:
在机器学习中,首先了解问题类型很重要。如果是连续输出-[1,23,4,5,6,5.5,6.7,..],请使用线性回归。如果它是分类输出-[0,1,0,0,1 ...]或['High','low','Medium',...]等,请进行Logistic回归。由于您的目标标签为0或1,因此使用Logistic回归或其他分类算法(SVM,决策树,随机森林)需要解决此问题。
数据清除/探索:
您必须将数据转换为数字格式或标准化格式以进行回归。 https://realpython.com/python-data-cleaning-numpy-pandas/
入门代码:
似乎您正在寻找问题的入门代码。您可以从Kaggle内核中找到。这里有一些链接: