我正在寻找一种方法,该方法能够基于一个字符串列对变量进行分类。有人告诉我SVM应该处理它,但是我不确定如何处理。
这是我拥有的数据的示例,我想根据名称对类别进行分类:
names category
321 Friall Táborské krokety 750g Americké brambory a krokety
800 McCain Fri'Style 600g Americké brambory a krokety
803 McCain Smiles 450g Americké brambory a krokety
935 Nowaco Americké brambory 750g Americké brambory a krokety
937 Nowaco Krokety 300g Americké brambory a krokety
1375 Tesco Kořeněné bramborové dílky 750g Americké brambory a krokety
939 Nowaco Pstruh lososovitý filet Balené ryby
1157 Rybářství Chlumec Nad Cidlinou Kapr půlka s kůží čerstvá chlazená Balené ryby
1158 Rybářství Chlumec Nad Cidlinou Kapr řízky s kůží čerstvě chlazené Balené ryby
1159 Rybářství Chlumec Nad Cidlinou Pstruh kuchaný s hlavou čerstvý chlazený Balené ryby
322 Gastro Camping salát 140g Balené saláty
323 Gastro Ďábelský salát 140g Balené saláty
324 Gastro Feferonový salát 140g Balené saláty
325 Gastro Hermelínový salát 140g Balené saláty
326 Gastro Holandský salát 140g Balené saláty
327 Gastro Loupežnický salát 140g Balené saláty
答案 0 :(得分:0)
大多数机器学习算法要求输入为数字。有多种方法可以从任何字符串中提取数字特征。功能可能是:#字母,#单词或虚拟单词表示某些单词的存在(“名称”列中包含的单词集中可以包含唯一的单词)。当然,还有其他多种技术,哪种技术最有效取决于手头的数据。很明显,领域专业知识可以在这里提供很大帮助。同样,有时确定性规则已经可以捕获大量案例。因此,我将不着重于寻找要使用的正确ML算法,而是从该字符串中提取哪些特征然后比较多个算法。
答案 1 :(得分:0)
我已使用a great tutorial by François de Ryckel 找到了解决问题的方法。
该解决方案基本上是R中的tm
和caret
库,它有助于对文本进行各种操作,以进行有效的数据挖掘。页面上的一个简单示例为用户提供了从文本处理开始必须具备的基本知识。