应用错误收集

扫描的PDF文档中的语言检测

时间：2013-03-26 11:48:54

标签： pdf image-processing ocr tesseract apache-tika

我正在尝试查找PDF文档的语言并对其进行分类。我面临的主要问题是文档被扫描的PDF文档。没有字体或Unicode的线索。

所以Apache Tikka这里没有多大帮助。

我尝试使用tesseract将文档从PDF转换为文本然后将提取的文本传递给谷歌服务它工作正常。但有三个问题：

Tesseract只能转换高质量的图片。
能够使用西班牙语，法语等类似英语的语言，但日语，中文等语言不能用。
文档文本是保密的，所有操作都应该在内部进行。

现在我正在寻找一个独立的语言检测组件，该组件适用于扫描的PDF文档。

0 个答案:

没有答案