//Parse an HTML file into text while preserving carriage returns
StringBuffer temp = new StringBuffer(html);
final StringBuffer sb = new StringBuffer();//this will be my output
HTMLEditorKit.ParserCallback parserCallback = new
HTMLEditorKit.ParserCallback() {
public boolean readyForNewline;
@Override
public void handleText(final char[] data, final int pos) {
String s = new String(data);
sb.append(s.trim() + " ");
readyForNewline = true;
}
@Override
public void handleStartTag(final HTML.Tag t,
final MutableAttributeSet a,
final int pos) {
if (readyForNewline &&
(t == HTML.Tag.DIV || t == HTML.Tag.BR ||
t == HTML.Tag.P || t == HTML.Tag.TR)) {
sb.append("\n");
readyForNewline = false;
}
}
@Override
public void handleSimpleTag(final HTML.Tag t,
final MutableAttributeSet a,
final int pos) {
handleStartTag(t, a, pos);
}
};
try {
new ParserDelegator().parse(new StringReader(temp.toString()),
parserCallback, false);
} catch (IOException e) {
return null;
}
这段代码适用于小的html文件,但是当我尝试解析一个已经转换为字符串的~4MB HTML文件时,它会抛出一个IOException并且我不明白为什么?它正好在那个try循环中,花了我一段时间才找到它,因为控制台没有打印错误。
基本上,此代码用于获取HTML文件并删除标记,同时保留行间距。我在SO上发现了这个代码并且正在借用它,替代解决方案也很好但是出于JSoup和其他许多人,这是唯一一个实现我想要的东西(无论如何都在小文件上)。当文件太大时,这个代码是否会抛出IOException?修复方法?
非常感谢!
编辑:这是堆栈
javax.swing.text.ChangedCharSetException
at javax.swing.text.html.parser.DocumentParser.handleEmptyTag(Unknown Source)
at javax.swing.text.html.parser.Parser.startTag(Unknown Source)
at javax.swing.text.html.parser.Parser.parseTag(Unknown Source)
at javax.swing.text.html.parser.Parser.parseContent(Unknown Source)
at javax.swing.text.html.parser.Parser.parse(Unknown Source)
at javax.swing.text.html.parser.DocumentParser.parse(Unknown Source)
at javax.swing.text.html.parser.ParserDelegator.parse(Unknown Source)
at org.SmartTable.SmartTable.htmlToText(SmartTable.java:293)
at org.SmartTable.SmartTable.<init>(SmartTable.java:35)
答案 0 :(得分:1)
new ParserDelegator()。parse(new StringReader(temp.toString()),parserCallback,true);
//将最后一个“false”更改为忽略字符集