Question

我正在查看一些示例数据，例如：

数据：

ID  Name    ParValue    Coupon  Maturity    Issuer  Moodys  S&P_Fitch   Grade   Risk
37833100    Apple_Inc.  1049    95  2030    Apple_Inc.  Aaa AAA Investment  Highest_Quality
02079K107   Alphabet_Inc.   1055    99  2030    Alphabet_Inc.   Aa  AA  Investment  High_Quality
11659109    Alaska_Air_Group    996 98  2030    Alaska_Air_Group    A   A   Investment  Strong
931142103   Walmart_Stores,_Inc.    1195    99  2030    Walmart_Stores,_Inc.    Baa BBB Investment  Medium_Grade
495734523   Corp._Takeover  1108    97  2021    Corp._Takeover  Ba,_B   BB,_B   Junk    Speculative
193467211   Toys_R_Us   1109    105 2021    Toys_R_Us   Caa/Ca/C    CCC/CC/C    Junk    Highly_Speculative
576300972   Enron   1062    102 2021    Enron   C   D   Junk    In_Default
983457823   Economic_Consultants_Inc.               Economic_Consultants_Inc.   Baa BBB Investment  Medium_Grade
894652378   Forecast_Backtesters_Corp.              Forecast_Backtesters_Corp.  Aaa AAA Investment  Highest_Quality

图片：

因此，如果沃尔玛拥有Baa，BBB，Investment和Medium_Grade（针对Moodys，S＆P_Fitch，等级和风险）和Economic_Consultants_Inc。具有这些相同的属性，我可以知道Economic_Consultants_Inc。即使缺少这些数据点，也具有1195、99和2030（对于ParValue，Coupon，Maturity）。

这可能是一个KNN问题，但我认为K-Means也可能有用。基本上，我试图基于相似的属性，基于上面的属性，找出如何更新缺失的数据点（ParValue，优惠券和成熟度），如上图中的粉红色。然后，我想将相似的项目组合在一起（K均值问题）。这里有人遇到过一个很好的在线示例吗？我今天在网上浏览，发现了一些使用随机生成的数字的示例，但是我的数据集将不会包含随机生成的数字。我将对如何解决此问题有任何见识。

Answer 1

您似乎缺少的是pandas。

我建议您通过10 min tutorial开始学习。方法应该是

使用熊猫将数据加载到数据框中，
根据您上面提到的条件，使用apply方法填充缺失值。

此answer与您可能需要执行的操作类似。

Answer 2

您还可以使用impyute软件包使用缺失值插补。

适用于KNN或K-Means聚类的Python示例

2 个答案: