具有不同类型特征的数据集的分类

时间:2018-06-27 10:48:26

标签: python machine-learning classification regression normalization

我想对数据集进行简单分类。每个数据都有各种属性,例如日期时间(例如:2018-01-01 13:03:11),人员ID,一些二进制属性(将获取值0或1),一些浮点属性,一些属性可能含有NaN等。

对于每个数据,都有我们要预测的标签。

我想使用python和简单的回归方法。但是由于属性类型不同,我认为我应该以某种方式更改它们,以便它们具有相同的格式,对吗?如果是,请您能帮我怎么做?

例如,我的数据集如下所示:

> data_number     date              id        yes/no    duration   
> label 0          2018-01-01 15:29:29    1321      0         43.943    
> 0 1          2018-03-01 15:18:09    1334      1         98.007        
> 1 2          2017-01-01 16:29:29    1393      0         431.10        
> 1

标签为0或1。

如果您也向我推荐了一些可以解释这类问题的网页,我将不胜感激。

谢谢

1 个答案:

答案 0 :(得分:1)

确定问题类型:

在机器学习中,首先了解问题类型很重要。如果是连续输出-[1,23,4,5,6,5.5,6.7,..],请使用线性回归。如果它是分类输出-[0,1,0,0,1 ...]或['High','low','Medium',...]等,请进行Logistic回归。由于您的目标标签为0或1,因此使用Logistic回归或其他分类算法(SVM,决策树,随机森林)需要解决此问题。

数据清除/探索:

您必须将数据转换为数字格式或标准化格式以进行回归。 https://realpython.com/python-data-cleaning-numpy-pandas/

入门代码:

似乎您正在寻找问题的入门代码。您可以从Kaggle内核中找到。这里有一些链接: