Tika:Js,Css的MIME类型检测

时间:2012-10-20 16:31:02

标签: mime-types apache-tika

我使用Apache Tika提取所有类型文件的文本。现在我也想用它来检测文件的正确MIME类型。

这适用于......

  • PDF文件(application/pdf
  • HTML文件(text/html

...但不适用于:

  • CSS文件(text/plain代替text/css
  • Javascript文件(text/plain代替text/javascript
  • ...

(这些Mime类型的结果来自我的应用程序,也来自tika-app)。

我的应用程序需要一个类似text/css的精确MIME类型,而不是普通的text/plain。 Tika可以实现吗?

1 个答案:

答案 0 :(得分:1)

你需要做两件事。首先,您需要为Tika提供文件名,因此可以使用它来帮助将纯文本类型专门化为适当的子类型(CSS,JS等)。其次,你需要确保你使用足够新版的Tika。

我刚尝试使用最新版本的Tika,并且传入了文件名,它可以很好地检测JS和CSS文件:

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css 
text/css

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript

此外,最新版本的Tika(截至r1400795)有一个单元测试,可以自动验证JS和CSS检测的工作情况,因此您可以确定它是否正常工作!