Apache Tika中的CSV检测器

时间:2015-08-21 09:34:05

标签: java csv apache-tika

我正在使用Apache(tika-core ver。1.10)的Java库 Tika

CSV文件存在org.apache.tika.detect.Detector吗? MIME类型应为text/csv,但我找不到类似的内容。

我想使用漂亮的detect方法

1 个答案:

答案 0 :(得分:4)

目前(v1.10)tika-mimetypes.xml定义text/csv,如下所示:

<mime-type type="text/csv">
  <glob pattern="*.csv"/>
  <sub-class-of type="text/plain"/>
</mime-type>

这意味着Apache Tika仅通过文件名检测到。如果您使用Tika#detect(File),Tika会将文件名(在Metadata.RESOURCE_NAME_KEY键下)添加到传递给检测器的Metadata对象。 URL的行为类似。

如果要注入文件名,可以使用以下内容:

new Tika().detect(is, fileName)

如果您想要一些基于内容的启发式方法,请随时在Tika's JIRA中检查并提交票证。