如何使用Apache Tika从.tex
文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika能够正确地将内容类型检测为application/x-tex
,但不会从中提取任何内容。
我尝试了命令
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
以及以下代码段:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
答案 0 :(得分:0)
Tika支持检测.tex文件扩展名,但还没有解析器,抱歉。
如果你能找到一个好的Java库(理想的是Apache Licensed)来解析.tex文件,那么我建议你在Tika JIRA中打开一个新的增强请求(https://issues.apache.org/jira/浏览/ TIKA)并根据该库请求Tex Parser。