我想从HTML页面中提取标题,html正文(纯文本),图片网址,是否可以使用Apache Tika服务器来实现它?
答案 0 :(得分:1)
按原样使用Apache Tika Server,您无法同时获取正文纯文本和所有img
标记src网址
您有几个选择:
img
标记img
标记网址和纯文本,可能使用您自己的xhtml解析器对于选项#3,您希望在很大程度上遵循fetch the body of the xhtml document example,但丢弃大部分标记信息。您只关心img
个标签作为标签,其余的只能通过内部字符