python - 我应该实现哪种机器学习算法来检测文档类型？

我应该实现哪种机器学习算法来检测文档类型？

时间：2019-06-26 10:06:36

标签： python machine-learning

我们要求从客户那里获得不同类型的文件，例如学生录取文件，分数表等。因此，我们想创建一种算法来识别文件是哪个文件。因此，为此，我们选择一些特定的关键字来标识文档类型，例如，如果录取文档具有fee，admission等关键字。并且marksheet记录了诸如marks，grade等的关键字。因此，在这里我们可以通过比较关键字的频率来预测文档类型。

对于上述要求，应采用哪种算法？我正计划实现多项式朴素基础算法。但是我无法将数据放入其中。

仅供参考。我正在使用python sklearn模块。

您能告诉我哪种算法适合上述要求吗？如果可能的话，还可以提供一个示例代码，以便我轻松找出解决方案吗？

1 个答案:

答案 0 :(得分：-4)

您正在寻找主题建模解决方案，并且有很多解决方案可以解决该问题。通过python和scikit-learn，我建议您看看this article