根据文件内容将文本文件包分成多个子集

时间:2018-07-02 14:19:09

标签: python algorithm machine-learning nlp

我有很多PDF,DOC [X],TIFF和其他文件(从共享文件夹扫描)。每个文件都转换为文本文件包:每页一个文本文件。

每个文件包可能包含多个文档(例如,合同)。文档类型可以是不仅是合同

在处理文件包期间,我不知道当前文件包包含哪种文件,一个文件包可能包含多种文件类型(合同,发票等)。

我正在寻找一些可能的方法来以编程方式解决此问题。

我试图搜索类似的内容,但没有成功。

UPD::我尝试使用scikit-learn创建二进制分类器,现在正在寻找另一种解决方案。

2 个答案:

答案 0 :(得分:0)

从根本上讲,因为它们是“扫描”,听起来更像是计算机视觉可以解决的问题,但是目前这远远超出了我目前的编程水平。

例如像SimpleCV这样的项目可能是一个很好的起点, http://www.simplecv.org/

或者,您也许可以摆脱OCR读取“扫描图”并根据内容进行工作。 pytesseract在此类任务中似乎很受欢迎, https://pypi.org/project/pytesseract/

但是,仍然缺少定义如何告诉程序该图像的这一部分意味着这是3个单独的合同的信息。关于这些文件的内容是否特别清楚,例如页面上的“ 3之1”,徽标还是其他?这将是确定您要解决的问题的复杂程度的主要部分。

答案 1 :(得分:0)

最好的解决方案是创建二进制分类器(SGDClassifier)并在类first-pagenot-first-page上进行训练。数据集中的每个项目均被修剪为100个令牌(单词)