Question

如何使用Apache Tika从.tex文件中提取文本？示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika能够正确地将内容类型检测为application/x-tex，但不会从中提取任何内容。

我尝试了命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

以及以下代码段：

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

Answer 1

Tika支持检测.tex文件扩展名，但还没有解析器，抱歉。

如果你能找到一个好的Java库（理想的是Apache Licensed）来解析.tex文件，那么我建议你在Tika JIRA中打开一个新的增强请求（https://issues.apache.org/jira/浏览/ TIKA）并根据该库请求Tex Parser。