Question

我想对数据集进行简单分类。每个数据都有各种属性，例如日期时间（例如：2018-01-01 13:03:11），人员ID，一些二进制属性（将获取值0或1），一些浮点属性，一些属性可能含有NaN等。

对于每个数据，都有我们要预测的标签。

我想使用python和简单的回归方法。但是由于属性类型不同，我认为我应该以某种方式更改它们，以便它们具有相同的格式，对吗？如果是，请您能帮我怎么做？

例如，我的数据集如下所示：

> data_number     date              id        yes/no    duration   
> label 0          2018-01-01 15:29:29    1321      0         43.943    
> 0 1          2018-03-01 15:18:09    1334      1         98.007        
> 1 2          2017-01-01 16:29:29    1393      0         431.10        
> 1

标签为0或1。

如果您也向我推荐了一些可以解释这类问题的网页，我将不胜感激。

谢谢

Answer 1

确定问题类型：

在机器学习中，首先了解问题类型很重要。如果是连续输出-[1,23,4,5,6，5.5，6.7，..]，请使用线性回归。如果它是分类输出-[0,1,0,0,1 ...]或['High'，'low'，'Medium'，...]等，请进行Logistic回归。由于您的目标标签为0或1，因此使用Logistic回归或其他分类算法（SVM，决策树，随机森林）需要解决此问题。

数据清除/探索：

您必须将数据转换为数字格式或标准化格式以进行回归。 https://realpython.com/python-data-cleaning-numpy-pandas/

入门代码：

似乎您正在寻找问题的入门代码。您可以从Kaggle内核中找到。这里有一些链接：

具有不同类型特征的数据集的分类

1 个答案: