为Tika定义.TXT文件的MIME类型

时间:2018-01-23 21:52:17

标签: mime-types apache-tika tika-server

我想定义* .txt文件的MIME类型:text/txt,以便Tika可以应用比用于text/plain文件的解析器更具体的解析器。

全球*.txt包含在text/plaintika-mimetypes.xml类型的定义中。此外,在我看来,你不能在custom-mimetypes.xml中重新定义MIME类型,只添加新的globs或魔术模式。此外,如果我将text/txt中的tika-mimetypes.xml类型定义为text/plain的子类型且仅包含glob *.txt,则Tika仍会将txt文件检测为text/plain

仅为txt文件定义text/plain的子类型是否荒谬?如果没有,是否可以仅使用custom-mimetypes.xml定义它?如果没有,扩展tika的最简单方法是什么,以便它可以解析txt文件的方式不同于(比如说)STEP 3D CAD .stp文件或.cfg文件?

用例详细说明:我有一个由(递归)归档组成的大量数据源。一些纯文本文件很大,我不希望Tika解析它们。但是,我想保留所有txt文件。

修改:指明我不想保留.cfg文件(*.cfgtext/plain的全球

0 个答案:

没有答案