我想从抓取的HTML网页中提取文字。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用Boilerpipe,我只得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并且内联所有css样式信息。
有没有办法用Boilerpipe或任何其他java库,最好是开源?
答案 0 :(得分:1)
我应该首先说我从未使用过Boilerpipe ......或者直到现在才听说过它。
但是看看网站和javadocs,我会说你不能用它来提取带有样式的文本。基本的概念问题是如何表示样式。例如,BoilerpipeExtractor
接口有4个getText
方法,每个方法都将提取的文本作为String返回。你会如何在String中表示样式?你必须嵌入某种标记,但是......
所以,我的评估是使用Boilerpipe来提取带样式的文本是一个完全不起作用的。因此,请使用您已经确定的其他替代方案。