machine-learning - 使用我的汽车数据集进行机器学习

使用我的汽车数据集进行机器学习

时间：2018-05-22 07:00:47

标签： machine-learning classification machine-learning-model

我对机器学习很新。我有一个数据集，其数据由f1比赛给我。用户正在玩这个游戏，正在给我这个数据集。通过机器学习，我必须使用这些数据，当用户（我知道他们是10岁）玩游戏时，我必须认识到谁在玩。

数据包括以1/10秒频率发生的数据报包，数据包包含以下Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

我曾考虑使用以监督方式使用的kmeans。哪种算法更好？

2 个答案:

答案 0 :(得分：0)

这是一个广泛的问题，所以我会尽我所能

kmeans是无监督的算法，意味着它会自己找到这些类，当你知道有多个类但你不知道它们究竟是什么时最好使用它...将它与标记数据一起使用只意味着你将计算新向量v与数据集中每个向量的距离，并选择一个（或使用多数投票的）给出最小距离，这不被视为机器学习

在这种情况下，当您拥有标签时，监督方法将产生更好的结果

我建议首先尝试random forest和logistic regression，这些是最基本和最常用的算法，它们会产生相当不错的效果

如果你没有达到预期的准确度，你可以使用深度学习，并建立一个神经网络，输入层与你的数据包的值和输出层的数量一样大，在你之间使用一个或多个隐藏层与各种节点，但这是先进的方法，你最好在机器学习领域获得一些经验，然后再追求它

注意：数据是一个时间序列，这意味着每个驾驶员都有自己驾驶汽车的行为，所以数据应该被视为积分，这可以应用模式匹配技术，也可以是几个神经网络完全构建这个数据（如RNN），但这是远远进步和更难实现

答案 1 :(得分：0)

任务必须是多类分类。任何机器学习活动的第一步都是定义分数指标（https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/）。这样您就可以比较它们之间的模型并确定哪个更好。然后根据另一个答案中的建议，构建具有随机森林或/和逻辑回归的基本模型-它们开箱即用。然后尝试使用功能并了解其中哪些功能更有用。而且不要忘了可视化-它们为数据整理等提供了许多提示。