我可以从我的Android应用程序的网页上提取标题和内容(paragraphed),但有时无法提取图像。
但是,我找不到在提取器中保留其html格式参数(例如粗体,带有超链接,下划线或字体大小等)的方法。
也就是说,如果网页中的一个句子配有粗体,超链接或下划线,我怎样才能提取句子本身及其格式参数?
我尝试了此页面:An article Web-API和本地jar中的API。
我希望使用本地API获得与Web-API相同的结果。
有人可以分享您对此问题的体验吗?
非常感谢,
詹姆斯
编辑#1
以下是代码:
signalUpdate(STATE.Start);
//
htmlDoc = HTMLFetcher.fetch(new URL(url));
//
doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extraction.setTitle(doc.getTitle()); // obtaining title
ArticleExtractor.INSTANCE.process(doc); // obtaining content
SplitParagraphBlocksFilter.INSTANCE.process(doc);
contentBuilder.setLength(0);
for(TextBlock block : doc.getTextBlocks()) {
blockString = "<p>" + block.getText() + "</p>";
contentBuilder.append(blockString);
}
extraction.setContent(contentBuilder.toString());
// obtaining image
extractor = CommonExtractors.ARTICLE_EXTRACTOR;
ie = ImageExtractor.INSTANCE;
imgUrls = ie.process(new URL(url), extractor);
extraction.setImgUrls(imgUrls);
//
signalUpdate(STATE.Complete);
实际上,我的意思是&#34;失败&#34;是:
我可以从一些网站上获取图片。但是,我在上面提到的这篇文章中无法获得图像。