标签: apache-tika language-detection
我正在玩Apache Tika(1.13),并注意到我通过 tika-app --metadata 运行的任何文档都没有包含语言标记。
在所有文档中包含/强制语言检测的正确方法是什么?是否可以通过配置进行,或者我可能需要添加添加此元数据的新解析器,或覆盖链中的现有解析器?
谢谢!