使用内联CSS提取HTML文章文本

时间:2012-06-10 02:40:05

标签: java extraction boilerpipe

我想从抓取的HTML网页中提取文字。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用Boilerpipe,我只得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并且内联所有css样式信息。

有没有办法用Boilerpipe或任何其他java库,最好是开源?

1 个答案:

答案 0 :(得分:1)

我应该首先说我从未使用过Boilerpipe ......或者直到现在才听说过它。

但是看看网站和javadocs,我会说你不能用它来提取带有样式的文本。基本的概念问题是如何表示样式。例如,BoilerpipeExtractor接口有4个getText方法,每个方法都将提取的文本作为String返回。你会如何在String中表示样式?你必须嵌入某种标记,但是......

  • 什么样的标记,
  • 你如何将这与接口的描述相协调,接口的描述表明方法返回“text”...而不是“带标记的文本”。

所以,我的评估是使用Boilerpipe来提取带样式的文本是一个完全不起作用的。因此,请使用您已经确定的其他替代方案。