Apache Tika获取段落

时间:2019-03-18 09:22:15

标签: java apache apache-tika

我必须使用Apache Tika从不同的文件类型提取文本。问题是我必须能够仅提取特定段落。我知道Tika返回元数据中的段落数,但是有没有办法从文本中提取特定段落呢?我尝试将文本解析为XHTML,使用Regex获取

<p>...</p> 

但返回的段落比元数据多。

0 个答案:

没有答案