基于一个字符串列对变量进行分类的方法

时间:2019-04-29 13:31:16

标签: r svm text-processing

我正在寻找一种方法,该方法能够基于一个字符串列对变量进行分类。有人告诉我SVM应该处理它,但是我不确定如何处理。

这是我拥有的数据的示例,我想根据名称对类别进行分类:

                                                                       names                    category
321                                             Friall Táborské krokety 750g Americké brambory a krokety
800                                                    McCain Fri'Style 600g Americké brambory a krokety
803                                                       McCain Smiles 450g Americké brambory a krokety
935                                            Nowaco Americké brambory 750g Americké brambory a krokety
937                                                      Nowaco Krokety 300g Americké brambory a krokety
1375                                    Tesco Kořeněné bramborové dílky 750g Americké brambory a krokety
939                                           Nowaco Pstruh lososovitý filet                 Balené ryby
1157       Rybářství Chlumec Nad Cidlinou Kapr půlka s kůží čerstvá chlazená                 Balené ryby
1158       Rybářství Chlumec Nad Cidlinou Kapr řízky s kůží čerstvě chlazené                 Balené ryby
1159 Rybářství Chlumec Nad Cidlinou Pstruh kuchaný s hlavou čerstvý chlazený                 Balené ryby
322                                                Gastro Camping salát 140g               Balené saláty
323                                               Gastro Ďábelský salát 140g               Balené saláty
324                                             Gastro Feferonový salát 140g               Balené saláty
325                                            Gastro Hermelínový salát 140g               Balené saláty
326                                              Gastro Holandský salát 140g               Balené saláty
327                                            Gastro Loupežnický salát 140g               Balené saláty

2 个答案:

答案 0 :(得分:0)

大多数机器学习算法要求输入为数字。有多种方法可以从任何字符串中提取数字特征。功能可能是:#字母,#单词或虚拟单词表示某些单词的存在(“名称”列中包含的单词集中可以包含唯一的单词)。当然,还有其他多种技术,哪种技术最有效取决于手头的数据。很明显,领域专业知识可以在这里提供很大帮助。同样,有时确定性规则已经可以捕获大量案例。因此,我将不着重于寻找要使用的正确ML算法,而是从该字符串中提取哪些特征然后比较多个算法。

答案 1 :(得分:0)

我已使用a great tutorial by François de Ryckel 找到了解决问题的方法。

该解决方案基本上是R中的tmcaret库,它有助于对文本进行各种操作,以进行有效的数据挖掘。页面上的一个简单示例为用户提供了从文本处理开始必须具备的基本知识。