对于以下问题,我需要找到一种使用AzureML构建和训练模型的方法:
我有一个具有以下结构的CSV文件:
Col A Col B
CAT1 A B not C A D E
CAT1 D B E not A and C D
CAT2 C D A not B and A
CAT3 C D A not B and A
这里CAT1,CAT2-是单词的类别 代表字典的A B C D E-单词可能拼写错误
此外,词典中的某些单词可以取反,因此不应考虑进行分类。
类别被定义为一组因素,其中每个单词在多行中的频率为该集合中的单词赋予最高排名。换句话说,算法将为CAT的所有行解析所有单词,例如,检测最常用的单词并赋予它们最高的排名。
我要构建的模型将尝试将用户输入分类为句子,即B A C,并显示检测到的类别,该类别的单词排名最高,而忽略NOT。
到目前为止,通过改编AzureML中的Twitter分类示例,我取得的成功有限。
关于如何训练模型的其他建议?