Question

我可以从我的Android应用程序的网页上提取标题和内容（paragraphed），但有时无法提取图像。

但是，我找不到在提取器中保留其html格式参数（例如粗体，带有超链接，下划线或字体大小等）的方法。

也就是说，如果网页中的一个句子配有粗体，超链接或下划线，我怎样才能提取句子本身及其格式参数？

我尝试了此页面：An article Web-API和本地jar中的API。

我希望使用本地API获得与Web-API相同的结果。

有人可以分享您对此问题的体验吗？

非常感谢，

詹姆斯

编辑＃1

以下是代码：

signalUpdate(STATE.Start);

//
htmlDoc = HTMLFetcher.fetch(new URL(url));

//                  
doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extraction.setTitle(doc.getTitle());        // obtaining title

ArticleExtractor.INSTANCE.process(doc);     // obtaining content
SplitParagraphBlocksFilter.INSTANCE.process(doc);

contentBuilder.setLength(0);

for(TextBlock block : doc.getTextBlocks()) {
    blockString = "<p>" + block.getText() + "</p>";
    contentBuilder.append(blockString);
}

extraction.setContent(contentBuilder.toString());

// obtaining image
extractor = CommonExtractors.ARTICLE_EXTRACTOR;
ie = ImageExtractor.INSTANCE;
imgUrls = ie.process(new URL(url), extractor);
extraction.setImgUrls(imgUrls);

//
signalUpdate(STATE.Complete);

实际上，我的意思是＆＃34;失败＆＃34;是：

我可以从一些网站上获取图片。但是，我在上面提到的这篇文章中无法获得图像。

如何在使用boilerpipe从网页中提取内容时保留原始的html格式？

0 个答案: