我有大约3000个单词,我想将它们分成大约20-50个不同的类别。我的话是你可能在公司名称中找到的典型短语。例如,“面子”,“书”,“销售”,“力量”。
到目前为止,我一直在寻找的图书馆是熊猫和scikit-learn。我想知道是否有适合这种情况的机器学习或深度学习算法?
我一直在寻找的主题是分类:识别对象属于哪个类别,以及降维:减少要考虑的变量的随机数。
当我搜索在Google上将文字分类时,它会带来孩子们的谜题,例如“你用铅笔做的事情” - 画画。或“房子的一部分” - 院子,房间。
答案 0 :(得分:1)
要深入学习这方面的工作,你必须开发一个大型数据集,很可能是手动的。事实上,最大的自然语言处理数据集是手动创建的。 即使您能够找到模型可以学习的数据集。那么诸如梯度增强树之类的模型将是其中之一,这将非常适合这样的多类别分类。一个经典的库是xgboost。