通过创建自己的标签进行监督学习

时间:2019-06-26 23:54:47

标签: machine-learning

场景-我有没有标签的数据,但是我可以创建一个功能来根据行为为数据添加标签并部署模型,因此我不必继续为数据添加标签。这被认为是机器学习吗?

目标:基于高中低标签对具有交易量峰值的帐户进行分类,以部署在大数据(数万亿行数据)上

数据:我拥有的数据包括以下属性: 帐户,时间,日期,交易量。

方法

  1. 创建一个名为“ spike”的新功能列,并创建一个熊猫函数以标识大于5的峰值。

  2. 接下来,我创建我的标签列并将其分类为中低峰值或高峰值。

  3. 下一步,我训练机器学习分类器,并将其部署到大数据中以类似模式标记未来的帐户。

对此过程有何想法?这种方法对机器学习正确吗?

1 个答案:

答案 0 :(得分:1)

第一个问题: 如果您的算法做出决定,也就是说,根据您拥有的一组样本在标签中放入一个标签,我会说这是一种机器学习算法。但是,如果您设计的代码考虑了您在数据方面的经验,那么我认为这不是ML方法。简而言之,ML会查看数据以从中获取模式和见解。我不知道您为什么要这么做,但是它需要成为ML算法吗?有时,您无需使用ML就可以以非常简单的方式解决问题。

第二个问题:恐怕不是。选择您的数据属性(例如:帐户,时间,日期,交易量),检查它们的相关性,尝试确定您是否具有优势,等等。此过程是ML之前的。特征工程将选择要呈现给我们算法的最佳特征,以便进行分类(在您的情况下)

第三个问题:我认为开始使用ML算法(例如KNN,SVM,NN,决策树等)已经足够公平了。

希望对您有所帮助! 干杯

相关问题