使用我的汽车数据集进行机器学习

时间:2018-05-22 07:00:47

标签: machine-learning classification machine-learning-model

我对机器学习很新。 我有一个数据集,其数据由f1比赛给我。用户正在玩这个游戏,正在给我这个数据集。 通过机器学习,我必须使用这些数据,当用户(我知道他们是10岁)玩游戏时,我必须认识到谁在玩。

数据包括以1/10秒频率发生的数据报包,数据包包含以下Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

我曾考虑使用以监督方式使用的kmeans。 哪种算法更好?

2 个答案:

答案 0 :(得分:0)

这是一个广泛的问题,所以我会尽我所能

kmeans是无监督的算法,意味着它会自己找到这些类,当你知道有多个类但你不知道它们究竟是什么时最好使用它...将它与标记数据一起使用只意味着你将计算新向量v与数据集中每个向量的距离,并选择一个(或使用多数投票的)给出最小距离,这不被视为机器学习

在这种情况下,当您拥有标签时,监督方法将产生更好的结果

我建议首先尝试random forestlogistic regression,这些是最基本和最常用的算法,它们会产生相当不错的效果

如果你没有达到预期的准确度,你可以使用深度学习,并建立一个神经网络,输入层与你的数据包的值和输出层的数量一样大,在你之间使用一个或多个隐藏层与各种节点,但这是先进的方法,你最好在机器学习领域获得一些经验,然后再追求它

注意:数据是一个时间序列,这意味着每个驾驶员都有自己驾驶汽车的行为,所以数据应该被视为积分,这可以应用模式匹配技术,也可以是几个神经网络完全构建这个数据(如RNN),但这是远远进步和更难实现

答案 1 :(得分:0)

任务必须是多类分类。任何机器学习活动的第一步都是定义分数指标(https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/)。这样您就可以比较它们之间的模型并确定哪个更好。然后根据另一个答案中的建议,构建具有随机森林或/和逻辑回归的基本模型-它们开箱即用。然后尝试使用功能并了解其中哪些功能更有用。而且不要忘了可视化-它们为数据整理等提供了许多提示。