PDF文档语言检测

时间:2012-03-30 21:41:53

标签: .net pdf

有没有办法获得PDF文档文本语言?

实施例: 假设我的语言中有一些未知的PDF文档,是否有任何工具可以让我自动获取PDF文档语言和存储(或ECHO)语言名称的文件?

此致 Volodymyr

3 个答案:

答案 0 :(得分:2)

基本上没有。 PDF文件中没有任何内容可以保证告诉您语言,并且从文件中获取可能有帮助的内容肯定没有什么简单。

如果文件使用CIDfonts,那么关联的CMap 可能通过CIDSystemInfo中的Ordering键为您提供线索,但这通常只是'Identity'的变体。

如果字体(CID或常规)包含ToUnicode CMaps(许多都可以,但不是必需的话),那么您可以从Unicode值推断语言。

答案 1 :(得分:0)

答案 2 :(得分:0)

如果从PDF中提取文本,则可以使用Google Translate API v2检测语言。不过,这是付费的网络服务。