使用Tika从.tex文件中提取文本

时间:2011-03-15 07:01:15

标签: tex text-extraction apache-tika

如何使用Apache Tika从.tex文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika能够正确地将内容类型检测为application/x-tex,但不会从中提取任何内容。

我尝试了命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

以及以下代码段:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

1 个答案:

答案 0 :(得分:0)

Tika支持检测.tex文件扩展名,但还没有解析器,抱歉。

如果你能找到一个好的Java库(理想的是Apache Licensed)来解析.tex文件,那么我建议你在Tika JIRA中打开一个新的增强请求(https://issues.apache.org/jira/浏览/ TIKA)并根据该库请求Tex Parser。