适用于KNN或K-Means聚类的Python示例

时间:2019-05-30 05:18:11

标签: python python-3.x scikit-learn

我正在查看一些示例数据,例如:

数据:

ID  Name    ParValue    Coupon  Maturity    Issuer  Moodys  S&P_Fitch   Grade   Risk
37833100    Apple_Inc.  1049    95  2030    Apple_Inc.  Aaa AAA Investment  Highest_Quality
02079K107   Alphabet_Inc.   1055    99  2030    Alphabet_Inc.   Aa  AA  Investment  High_Quality
11659109    Alaska_Air_Group    996 98  2030    Alaska_Air_Group    A   A   Investment  Strong
931142103   Walmart_Stores,_Inc.    1195    99  2030    Walmart_Stores,_Inc.    Baa BBB Investment  Medium_Grade
495734523   Corp._Takeover  1108    97  2021    Corp._Takeover  Ba,_B   BB,_B   Junk    Speculative
193467211   Toys_R_Us   1109    105 2021    Toys_R_Us   Caa/Ca/C    CCC/CC/C    Junk    Highly_Speculative
576300972   Enron   1062    102 2021    Enron   C   D   Junk    In_Default
983457823   Economic_Consultants_Inc.               Economic_Consultants_Inc.   Baa BBB Investment  Medium_Grade
894652378   Forecast_Backtesters_Corp.              Forecast_Backtesters_Corp.  Aaa AAA Investment  Highest_Quality

图片:

enter image description here

因此,如果沃尔玛拥有Baa,BBB,Investment和Medium_Grade(针对Moodys,S&P_Fitch,等级和风险)和Economic_Consultants_Inc。具有这些相同的属性,我可以知道Economic_Consultants_Inc。即使缺少这些数据点,也具有1195、99和2030(对于ParValue,Coupon,Maturity)。

这可能是一个KNN问题,但我认为K-Means也可能有用。基本上,我试图基于相似的属性,基于上面的属性,找出如何更新缺失的数据点(ParValue,优惠券和成熟度),如上图中的粉红色。然后,我想将相似的项目组合在一起(K均值问题)。这里有人遇到过一个很好的在线示例吗?我今天在网上浏览,发现了一些使用随机生成的数字的示例,但是我的数据集将不会包含随机生成的数字。我将对如何解决此问题有任何见识。

2 个答案:

答案 0 :(得分:2)

您似乎缺少的是pandas

我建议您通过10 min tutorial开始学习。 方法应该是

  1. 使用熊猫将数据加载到数据框中,
  2. 根据您上面提到的条件,使用apply方法填充缺失值。

answer与您可能需要执行的操作类似。

答案 1 :(得分:1)

您还可以使用impyute软件包使用缺失值插补。