确定组成员资格的算法

时间:2016-08-13 07:03:03

标签: algorithm text-classification

我想将对象(书籍)组织成组(作品)。我必须测试会员资格的数据是标题和作者。

标题和作者的格式通常略有不同,例如“名字姓氏”或“姓氏。名字”。有时标题包含格式(“平装”,“精装”,“电子书”)。

有时一个组可能包含一个不属于的对象。有时,一个组可能包含许多错误的产品。我不希望能够100%正确。

我的第一个想法是贝叶斯分类器,只有一个类别从该组训练,然后用于根据书的分数对成员进行分类。经过测试后,我认为这不是一个好主意。

我的下一个想法是在标题和作者中使用单词并创建一个向量。然后计算距离对象矢量的组矢量的距离,以确定组成员资格。我已经看过rb-libsvm gem(我将使用Ruby)看起来很有前景?

或者是否有其他方式将这些书集群/分类到群组中?

0 个答案:

没有答案