摘要:我正在尝试使用sklearn的RandomForestClassifier
在大约1000行x 20列的数据集上预测法院案件的类别方面(例如结果)。我知道原告律师是这方面的重要因素,在这种情况下,同一案子的律师事务所通常有2或3个原告律师,而另一律师事务所则有2或3个原告律师。
我在DataFrame中有一栏,其中列出了案件的律师名单。有〜1000行和〜200个唯一的律师姓名。解决此问题的一种方法是使用pd.get_dummies()
对律师姓名进行热编码,这会导致模型过度拟合或质量很差(R ^ 2:0.2)
鉴于我的数据集相对较小,对更好的解决方案有何想法?如果它们在数据集中出现n次以上,也许只使用get_dummies?除了一种热编码之外,还有其他使用我的列表的方法吗?
例如:
index attorney_name
0 [A1,A2,A3]
1 [A2]
2 [A6]
3 [A2,A19]
… …
1004 [A200,A201]
1005 [A202]