如何使用Apache tika解析器从HTML中提取标题,正文和图像

时间:2014-12-23 15:59:59

标签: html apache html-parsing apache-tika extractor

我想从HTML页面中提取标题,html正文(纯文本),图片网址,是否可以使用Apache Tika服务器来实现它?

1 个答案:

答案 0 :(得分:1)

按原样使用Apache Tika Server,您无法同时获取正文纯文本和所有img标记src网址

您有几个选择:

  1. 首先,向Tika Server询问文件的纯文本。然后,第二次要求它为img标记
  2. 的客户端标准化HTML +过滤器
  3. 向Tika Server询问规范化的HTML表单,然后在本地获取img标记网址和纯文本,可能使用您自己的xhtml解析器
  4. 使用自定义内容处理程序直接调用Tika java代码,而不使用服务器。
  5. 对于选项#3,您希望在很大程度上遵循fetch the body of the xhtml document example,但丢弃大部分标记信息。您只关心img个标签作为标签,其余的只能通过内部字符