群集Scikit - 将业务数据转换为机器学习输入数据

时间:2016-05-06 21:02:59

标签: algorithm machine-learning scikit-learn cluster-analysis data-science

我是数据科学世界的新手,我正在努力理解关于ML结果的概念。我开始使用 scikit - clustering 示例。使用scikit库随处可见。但所有的例子都假设有现成的数值数据。

现在,数据科学家如何将业务数据转换为机器学习数据。举一个例子,这里是我准备的客户和销售数据..

Customer Data

Order Data

第一张图显示了客户数据,其中一些参数具有整数,字符串和布尔值

第二张图显示了这些客户的历史销售数据。

现在如何将这样的真实业务数据转换为机器学习算法?如何将每个数据转换为算法可以理解的公共因子?

由于 ķ

2 个答案:

答案 0 :(得分:0)

技术上,有很多方法,例如单热编码,标准化,以及为偏斜属性进入日志空间。

但问题是只是技术性的。

找到某种方式是不够的,但你需要找到一个非常好的问题。这通常与问题有很大不同。没有“交钥匙解决方案”。

答案 1 :(得分:0)

除了@ Anony-Mousse的评论之外,您还可以将Won / Lost列转换为值1,0(例如Won为1,Lost为0)。对于Y列,假设您在列中有3个唯一值,您可以将A转换为[1, 0, 0]B转换为[0, 1, 0]和{{1} } C(称为单热编码)。在[0, 0, 1]列上相同,您可以将Z列转换为TRUE,将1转换为FALSE(或0True )。

要将2个表或excel文件合并在一起,您可以使用名为False的其他库,它允许您将两个数据帧合并在一起,例如pandas。现在,您可以将您的功能集设置为scikit正确学习。