我应该实现哪种机器学习算法来检测文档类型?

时间:2019-06-26 10:06:36

标签: python machine-learning

我们要求从客户那里获得不同类型的文件,例如学生录取文件,分数表等。因此,我们想创建一种算法来识别文件是哪个文件。因此,为此,我们选择一些特定的关键字来标识文档类型,例如,如果录取文档具有feeadmission等关键字。并且marksheet记录了诸如marksgrade等的关键字。因此,在这里我们可以通过比较关键字的频率来预测文档类型。

对于上述要求,应采用哪种算法?我正计划实现多项式朴素基础算法。但是我无法将数据放入其中。

仅供参考。我正在使用python sklearn模块。

您能告诉我哪种算法适合上述要求吗?如果可能的话,还可以提供一个示例代码,以便我轻松找出解决方案吗?

1 个答案:

答案 0 :(得分:-4)

您正在寻找主题建模解决方案,并且有很多解决方案可以解决该问题。通过python和scikit-learn,我建议您看看this article