如何在java中检测文档的确切类型

时间:2011-06-29 17:58:35

标签: java

如何在java中检测文档的确切类型。实际上我将在运行时获取大量文档,如文章,手册和指南等,我需要使用java来识别它们的实际类型。文档可以是PDF,HTML,DOC,XML等。我甚至没有文档的扩展名。请参阅我将从db获取文档。仅在PDF的情况下,我将具有扩展名,但是对于HTML和其他人,我将不具有扩展名。实际上在获得内容之后我将不得不判断它是哪种内容然后我将实现我的业务逻辑......请帮助我。

2 个答案:

答案 0 :(得分:3)

Apache Tika具有检测MIME类型文件的功能:

http://tika.apache.org/

然而,它的重量非常重,因为它不仅仅是MIME类型检测。

答案 1 :(得分:1)

尝试FITS,它封装了以下用于识别,验证和提取技术元数据的工具:

  1. Jhove
  2. Exiftool
  3. 新西兰国家图书馆元数据提取器(NLNZ)
  4. 文件实用程序
  5. DROID
  6. FFIdent
  7. 的FileInfo
  8. XmlMetadata