Question

我是机器学习和数据挖掘的新手。这就是问题所在：我目前有一个输入变量是一个由非标准名词组成的小文本，并且想要在目标类别中进行分类。我有大约40％来自整个数据集的总训练数据。休息60％我们希望尽可能准确地进行分类。以下是多个观察结果中的一些输入变量，这些变量被分配给了“LEAD_GENERATION_REPRESENTATIVE”＆＃39; LEAD_GENERATION_REPRESENTATIVE＆＃39;标题。

"Business Development Representative MFG"
"Business Development Director Retail-KK"
"Branch Staff"
"Account Development Rep"
"New Business Rep"
"Hong Kong Cloud"
"Lead Gen, New Business Development"
"Strategic Alliances EMEA"
"ENG-BDE"

我认为上面给出了非标准名词的含义。我可以在这里看到几个像'development','lead','rep'这样有意义的令牌。其他似乎是随机的，没有任何语义，但它们可能在数据中出现多次。另一件事是像'rep','account'这样的一些令牌可以出现在多个类别中。我认为这会使加权/相似性成为一项具有挑战性的任务。

我的第一个问题是＆＃34;是否值得自动化这种分类？＆＃34;

第二：＆＃34;学习机器学习分类是一个很好的问题吗？＆＃34;。只有30k这样的条目和少数目标类别。我可以找人手动做那些也更准确的。

到目前为止我对这个问题的看法是：

全文引擎：像solr一样构建索引和查询规则，根据标记绘制匹配项 - 单词，短语，同义词，首字母缩略词，描述。我可以让某人为每个类别定义详细分类。使用boost，使用可插入的评分库

机器学习：朴素贝叶斯分类决策树 SVM

我已经通过反向查找尝试了Solr，因为我现在还没有分类。似乎我可以获得大约80％的真实积极性（我必须更多地挖掘混淆矩阵以减少误报）。我的查询是一堆布尔语术语和短语与接近和提升;否定减少错误。我担心这种方法可能会导致过度适应并且无法扩展。

我知道人们通常会尝试多种建模技术来实现哪种技术最佳，或者推导出技术组合。我想从可行性和复杂性的角度来理解这个问题。如果问题太广泛，请评论解决方案的可行性。

短文句法分类

0 个答案: