应用错误收集

如何使用Apache tika解析器从HTML中提取标题，正文和图像

时间：2014-12-23 15:59:59

标签： html apache html-parsing apache-tika extractor

我想从HTML页面中提取标题，html正文（纯文本），图片网址，是否可以使用Apache Tika服务器来实现它？

1 个答案:

答案 0 :(得分：1)

按原样使用Apache Tika Server，您无法同时获取正文纯文本和所有img标记src网址

您有几个选择：

首先，向Tika Server询问文件的纯文本。然后，第二次要求它为img标记
向Tika Server询问规范化的HTML表单，然后在本地获取img标记网址和纯文本，可能使用您自己的xhtml解析器
使用自定义内容处理程序直接调用Tika java代码，而不使用服务器。

对于选项＃3，您希望在很大程度上遵循fetch the body of the xhtml document example，但丢弃大部分标记信息。您只关心img个标签作为标签，其余的只能通过内部字符