我是数据科学世界的新手,我正在努力理解关于ML结果的概念。我开始使用 scikit - clustering 示例。使用scikit库随处可见。但所有的例子都假设有现成的数值数据。
现在,数据科学家如何将业务数据转换为机器学习数据。举一个例子,这里是我准备的客户和销售数据..
第一张图显示了客户数据,其中一些参数具有整数,字符串和布尔值
第二张图显示了这些客户的历史销售数据。
现在如何将这样的真实业务数据转换为机器学习算法?如何将每个数据转换为算法可以理解的公共因子?
由于 ķ
答案 0 :(得分:0)
技术上,有很多方法,例如单热编码,标准化,以及为偏斜属性进入日志空间。
但问题是不只是技术性的。
找到某种方式是不够的,但你需要找到一个非常好的问题。这通常与问题有很大不同。没有“交钥匙解决方案”。
答案 1 :(得分:0)
除了@ Anony-Mousse的评论之外,您还可以将Won / Lost列转换为值1,0(例如Won
为1,Lost
为0)。对于Y
列,假设您在列中有3个唯一值,您可以将A
转换为[1, 0, 0]
和B
转换为[0, 1, 0]
和{{1} } C
(称为单热编码)。在[0, 0, 1]
列上相同,您可以将Z
列转换为TRUE
,将1
转换为FALSE
(或0
或True
)。
要将2个表或excel文件合并在一起,您可以使用名为False
的其他库,它允许您将两个数据帧合并在一起,例如pandas
。现在,您可以将您的功能集设置为scikit正确学习。