在POI中解析HTML内容

时间:2010-09-29 06:56:54

标签: html excel html-parsing export-to-excel

我正在使用POI创建电子表格报告,我有html内容<p><b/>&nbsp;等,我如何在POI中解析这些html标记? POI中是否有任何可以解析html内容的功能?

这是我的POI代码示例:

HSSFCell cell = getHSSFCell(mysheet, 5, 1);
cell.setCellValue(new HSSFRichTextString(htmlContent));

提前谢谢。

2 个答案:

答案 0 :(得分:1)

POI不适用于HTML,适用于MS Office。您想要使用的是HTML解析部分的Xpath。 Xpath是它自己的一个兔子洞,所以我不会详细介绍它,但这里有一些java xpath的资源:

roseindia tutorial

javadocs

IBM Xpath API

答案 1 :(得分:0)

其中一个简单的解决方案是使用HTML解析器解析HTML内容,然后使用POI设置文本。我使用Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html

使用jericho进行简单的HTML解析:

Source source = new Source("The HTML Text");
String parsedHTMLText = source.getTextExtractor().toString();