我正在尝试查找PDF文档的语言并对其进行分类。我面临的主要问题是文档被扫描的PDF文档。没有字体或Unicode的线索。
所以Apache Tikka这里没有多大帮助。
我尝试使用tesseract将文档从PDF转换为文本然后将提取的文本传递给谷歌服务它工作正常。但有三个问题:
Tesseract只能转换高质量的图片。
能够使用西班牙语,法语等类似英语的语言,但日语,中文等语言不能用。
文档文本是保密的,所有操作都应该在内部进行。
现在我正在寻找一个独立的语言检测组件,该组件适用于扫描的PDF文档。