我们要求从客户那里获得不同类型的文件,例如学生录取文件,分数表等。因此,我们想创建一种算法来识别文件是哪个文件。因此,为此,我们选择一些特定的关键字来标识文档类型,例如,如果录取文档具有fee
,admission
等关键字。并且marksheet
记录了诸如marks
,grade
等的关键字。因此,在这里我们可以通过比较关键字的频率来预测文档类型。
对于上述要求,应采用哪种算法?我正计划实现多项式朴素基础算法。但是我无法将数据放入其中。
仅供参考。我正在使用python sklearn模块。
您能告诉我哪种算法适合上述要求吗?如果可能的话,还可以提供一个示例代码,以便我轻松找出解决方案吗?