标签: java apache apache-tika
我必须使用Apache Tika从不同的文件类型提取文本。问题是我必须能够仅提取特定段落。我知道Tika返回元数据中的段落数,但是有没有办法从文本中提取特定段落呢?我尝试将文本解析为XHTML,使用Regex获取
<p>...</p>
但返回的段落比元数据多。