我使用Apache Tika提取所有类型文件的文本。现在我也想用它来检测文件的正确MIME类型。
这适用于......
application/pdf
)text/html
)...但不适用于:
text/plain
代替text/css
)text/plain
代替text/javascript
)(这些Mime类型的结果来自我的应用程序,也来自tika-app)。
我的应用程序需要一个类似text/css
的精确MIME类型,而不是普通的text/plain
。 Tika可以实现吗?
答案 0 :(得分:1)
你需要做两件事。首先,您需要为Tika提供文件名,因此可以使用它来帮助将纯文本类型专门化为适当的子类型(CSS,JS等)。其次,你需要确保你使用足够新版的Tika。
我刚尝试使用最新版本的Tika,并且传入了文件名,它可以很好地检测JS和CSS文件:
$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css
text/css
$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript
此外,最新版本的Tika(截至r1400795)有一个单元测试,可以自动验证JS和CSS检测的工作情况,因此您可以确定它是否正常工作!