我需要索引一大堆扫描文档,但感兴趣的文档只是我的分类器需要识别的整个包的一小部分。为了了解最佳类的数量以及如何最好地合并类中的文档,我想运行无监督的聚类分析。
哪种距离方法可以更好地捕获结构信息。凝聚性分层聚类是否也是给定任务的最佳聚类方法?感谢
答案 0 :(得分:0)
无监督的聚类技术在扫描的文档上失败,因为它无法掌握底层结构并最终给出非无意义的聚类。所以这种方法存在根本缺陷。然而,如果文档具有不同的结构,则使用具有足够数据和精心选择的不同类的深度卷积神经网络的分类可以胜过OCR技术。