我是机器学习和数据挖掘的新手。这就是问题所在:我目前有一个输入变量是一个由非标准名词组成的小文本,并且想要在目标类别中进行分类。我有大约40%来自整个数据集的总训练数据。休息60%我们希望尽可能准确地进行分类。以下是多个观察结果中的一些输入变量,这些变量被分配给了“LEAD_GENERATION_REPRESENTATIVE”' LEAD_GENERATION_REPRESENTATIVE'标题。
"Business Development Representative MFG"
"Business Development Director Retail-KK"
"Branch Staff"
"Account Development Rep"
"New Business Rep"
"Hong Kong Cloud"
"Lead Gen, New Business Development"
"Strategic Alliances EMEA"
"ENG-BDE"
我认为上面给出了非标准名词的含义。我可以在这里看到几个像'development','lead','rep'
这样有意义的令牌。其他似乎是随机的,没有任何语义,但它们可能在数据中出现多次。另一件事是像'rep','account'
这样的一些令牌可以出现在多个类别中。我认为这会使加权/相似性成为一项具有挑战性的任务。
我的第一个问题是"是否值得自动化这种分类?"
第二:"学习机器学习分类是一个很好的问题吗?"。只有30k这样的条目和少数目标类别。我可以找人手动做那些也更准确的。
到目前为止我对这个问题的看法是:
全文引擎:像solr一样构建索引和查询规则,根据标记绘制匹配项 - 单词,短语,同义词,首字母缩略词,描述。我可以让某人为每个类别定义详细分类。使用boost,使用可插入的评分库
机器学习: 朴素贝叶斯分类 决策树 SVM
我已经通过反向查找尝试了Solr,因为我现在还没有分类。似乎我可以获得大约80%的真实积极性(我必须更多地挖掘混淆矩阵以减少误报)。我的查询是一堆布尔语术语和短语与接近和提升;否定减少错误。我担心这种方法可能会导致过度适应并且无法扩展。
我知道人们通常会尝试多种建模技术来实现哪种技术最佳,或者推导出技术组合。我想从可行性和复杂性的角度来理解这个问题。如果问题太广泛,请评论解决方案的可行性。