强大的关系预测和训练数据中的类

时间:2016-08-12 08:29:13

标签: r machine-learning classification r-caret gbm

我有一份包含足球运动员文字的1000份文件清单。从这些文件中的100个我知道在文档的文本中提到了哪些足球运动员。

我想在其余900份文件中识别足球运动员。

为此,我已经编写了一段代码来识别'姓名'。对于每个文档,我找到1个最多20个不同的名称。有些名字是足球运动员,但有些是经理,球探或其他人员。

为了确定文档中的名字是否是一名足球运动员,我为每个名字收集了一堆文字特征'我找到了所有1000份文件。例如,' name'在文件中提到?另一个(重要的)特征是文件中观察到的名字是否是已知的足球运动员。那就是 - 这个名字是出现在足球运动员所知的100个文件中的任何一个吗?

我使用caret中的R包运行GBM来分类文档中观察到的名称是否为足球运动员。

我使用来自100个文件(我知道足球运动员)的信息来训练我的数据。在得到的模型中,我发现后一个特征是确定名称是否是足球运动员的最强预测器。但它是如此强大,以至于其余900份文件中观察到的名称不在100个已知文件中,从未被归类为足球运动员。

从阅读GBM文献中我相信我做错了什么,但我不知道到底是什么。

我理解(并考虑)我可以删除该名称是否出现在100个已知文档中的特征,但后来我失去了很多解释力。我可以使用train中的caret函数手动限制此预测变量的相对重要性吗?

我应该尝试或阅读其他技术或方法吗?

欢迎任何建议。谢谢!

0 个答案:

没有答案