包括用于文档分类的图像

时间:2019-02-04 18:50:39

标签: python nlp classification image-recognition

我正在尝试将文档分类为大量类别(> 100)。以前,我一直试图仅根据它们包含的文本对它们进行分类。但是,我注意到其中的一些图像可能会使它们更容易分类(例如:带有世界银行徽标的文档可能应该归金融部所有)。我想知道如何将其中包含的信息最好地整合到我的分类模型中。

其中包含的许多图像都不相关,或者出现的频率不足以使人们了解(例如,世界银行的一个文档在文档中某处有一张美元钞票的库存图像,但它是其中唯一的美元钞票图像)整个训练语料库)。此外,我要分类的文档不一定具有一定数量的图像或图像格式(我只是将图像从PDF中剥离)。

当前,我正在考虑几种不同的方法:预处理:遍历训练语料库,提取所有图像。尝试识别经常出现的任何图像(我不知道该如何手动完成,因为我的语料库中有几千个文档)。然后,我将针对重复的图像类型训练一个识别程序(它可以是徽标,或者通常是图形与选定数量的类别相关联)。我会先编写一个程序,然后再带一个文档,然后使用先前制作的识别程序输出某种矢量(也许是1热编码),以指示给定类型的图像是否在文档中。 方法1)将此向量附加到我的文档词上下文向量上,并使用它训练我的一般分类器。 方法2)仅使用文档中的图像训练单独的分类器(由于图像数量不是恒定的,我不确定分类器的确切输入是什么),并将其输出与我的输出进行矢量组合document-word-context分类器以获得最终分类。 方法3)尝试从图像中提取关键特征,并将其用于文档分类,而不是了解文档中确切的图像(例如:如果我告诉我,我不一定需要知道我的文档中有美元)我有一堆勾勒出美元钞票的角。

通常,我准备使用文本信息来做一个体面的分类工作,但是对于涉及图像的任何事情我都不准备。我什至不一定要确定包括这些图像是否值得花时间与其他东西(例如超参数调整或测试不同模型)相去甚远。我主要想知道是否其他有图像经验的人会认为值得这样做,如果是这样,我如何将其与基于单词上下文等的分类算法最佳结合?

最后一个细节-我将尝试如何根据单词内容对从SVM和NB到RNN和LSTM Neural Nets的内容进行分类,但是到目前为止,看来我将使用LSTM或像DNN一样倾向于最佳性能。因此,很可能是我将任何图像分类都与之结合的一种。到目前为止,我已经在Python中实现了基于文本的分类思想,因此理想情况下具有在python中(或包含其中的库)制作图像部分的能力是理想的。尽管我没有Java经验,但我已经阅读了一些有关Appache Tika的信息,虽然对我很有帮助,但是我不确定这样做的效果如何。

0 个答案:

没有答案