我有一份包含足球运动员文字的1000份文件清单。从这些文件中的100个我知道在文档的文本中提到了哪些足球运动员。
我想在其余900份文件中识别足球运动员。
为此,我已经编写了一段代码来识别'姓名'。对于每个文档,我找到1个最多20个不同的名称。有些名字是足球运动员,但有些是经理,球探或其他人员。
为了确定文档中的名字是否是一名足球运动员,我为每个名字收集了一堆文字特征'我找到了所有1000份文件。例如,' name'在文件中提到?另一个(重要的)特征是文件中观察到的名字是否是已知的足球运动员。那就是 - 这个名字是出现在足球运动员所知的100个文件中的任何一个吗?
我使用caret
中的R
包运行GBM
来分类文档中观察到的名称是否为足球运动员。
我使用来自100个文件(我知道足球运动员)的信息来训练我的数据。在得到的模型中,我发现后一个特征是确定名称是否是足球运动员的最强预测器。但它是如此强大,以至于其余900份文件中观察到的名称不在100个已知文件中,从未被归类为足球运动员。
从阅读GBM文献中我相信我做错了什么,但我不知道到底是什么。
我理解(并考虑)我可以删除该名称是否出现在100个已知文档中的特征,但后来我失去了很多解释力。我可以使用train
中的caret
函数手动限制此预测变量的相对重要性吗?
我应该尝试或阅读其他技术或方法吗?
欢迎任何建议。谢谢!