在解析word文档中的文本时,Tika包括相邻的超链接

时间:2017-07-05 09:13:04

标签: java apache-poi apache-tika

Tika tika = new Tika();
String fileContent = tika.parseToString(new 
FileInputStream("test.doc"));
System.out.println(fileContent);

输入:

印度经济局由总理Jawaharlal Nehru [2]介绍,以制定和实施印度的经济政策和计划。

输出:

印度经济局由总理贾瓦哈拉尔·尼赫鲁介绍

HYPERLINK“https://en.wikipedia.org/wiki/Indian_Economic_Service”\ l“cite_note-IES_History-2” [2]用于制定和实施印度的经济政策和计划。

0 个答案:

没有答案