我想定义* .txt文件的MIME类型:text/txt
,以便Tika可以应用比用于text/plain
文件的解析器更具体的解析器。
全球*.txt
包含在text/plain
中tika-mimetypes.xml
类型的定义中。此外,在我看来,你不能在custom-mimetypes.xml
中重新定义MIME类型,只添加新的globs或魔术模式。此外,如果我将text/txt
中的tika-mimetypes.xml
类型定义为text/plain
的子类型且仅包含glob *.txt
,则Tika仍会将txt文件检测为text/plain
。
仅为txt文件定义text/plain
的子类型是否荒谬?如果没有,是否可以仅使用custom-mimetypes.xml
定义它?如果没有,扩展tika的最简单方法是什么,以便它可以解析txt文件的方式不同于(比如说)STEP 3D CAD .stp文件或.cfg文件?
用例详细说明:我有一个由(递归)归档组成的大量数据源。一些纯文本文件很大,我不希望Tika解析它们。但是,我想保留所有txt文件。
修改:指明我不想保留.cfg文件(*.cfg
是text/plain
的全球