我正在查看一些示例数据,例如:
数据:
ID Name ParValue Coupon Maturity Issuer Moodys S&P_Fitch Grade Risk
37833100 Apple_Inc. 1049 95 2030 Apple_Inc. Aaa AAA Investment Highest_Quality
02079K107 Alphabet_Inc. 1055 99 2030 Alphabet_Inc. Aa AA Investment High_Quality
11659109 Alaska_Air_Group 996 98 2030 Alaska_Air_Group A A Investment Strong
931142103 Walmart_Stores,_Inc. 1195 99 2030 Walmart_Stores,_Inc. Baa BBB Investment Medium_Grade
495734523 Corp._Takeover 1108 97 2021 Corp._Takeover Ba,_B BB,_B Junk Speculative
193467211 Toys_R_Us 1109 105 2021 Toys_R_Us Caa/Ca/C CCC/CC/C Junk Highly_Speculative
576300972 Enron 1062 102 2021 Enron C D Junk In_Default
983457823 Economic_Consultants_Inc. Economic_Consultants_Inc. Baa BBB Investment Medium_Grade
894652378 Forecast_Backtesters_Corp. Forecast_Backtesters_Corp. Aaa AAA Investment Highest_Quality
图片:
因此,如果沃尔玛拥有Baa,BBB,Investment和Medium_Grade(针对Moodys,S&P_Fitch,等级和风险)和Economic_Consultants_Inc。具有这些相同的属性,我可以知道Economic_Consultants_Inc。即使缺少这些数据点,也具有1195、99和2030(对于ParValue,Coupon,Maturity)。
这可能是一个KNN问题,但我认为K-Means也可能有用。基本上,我试图基于相似的属性,基于上面的属性,找出如何更新缺失的数据点(ParValue,优惠券和成熟度),如上图中的粉红色。然后,我想将相似的项目组合在一起(K均值问题)。这里有人遇到过一个很好的在线示例吗?我今天在网上浏览,发现了一些使用随机生成的数字的示例,但是我的数据集将不会包含随机生成的数字。我将对如何解决此问题有任何见识。
答案 0 :(得分:2)
您似乎缺少的是pandas。
我建议您通过10 min tutorial开始学习。 方法应该是
此answer与您可能需要执行的操作类似。
答案 1 :(得分:1)
您还可以使用impyute软件包使用缺失值插补。