有没有办法获得PDF文档文本语言?
实施例: 假设我的语言中有一些未知的PDF文档,是否有任何工具可以让我自动获取PDF文档语言和存储(或ECHO)语言名称的文件?
此致 Volodymyr
答案 0 :(得分:2)
基本上没有。 PDF文件中没有任何内容可以保证告诉您语言,并且从文件中获取可能有帮助的内容肯定没有什么简单。
如果文件使用CIDfonts,那么关联的CMap 可能通过CIDSystemInfo中的Ordering键为您提供线索,但这通常只是'Identity'的变体。
如果字体(CID或常规)包含ToUnicode CMaps(许多都可以,但不是必需的话),那么您可以从Unicode值推断语言。
答案 1 :(得分:0)
好的,我找到了一些有用的链接,这比没有更好: C#示例:http://www.eggheadcafe.com/community/csharp/2/10351962/how-to-recogonise-that-data-written-in-pdf-or-doc--is-english-or-not.aspx
Java:http://www.slideshare.net/shuyo/language-detection-library-for-java
在线(网络):http://whatlanguageisthis.com/
谢谢!
答案 2 :(得分:0)
如果从PDF中提取文本,则可以使用Google Translate API v2检测语言。不过,这是付费的网络服务。