html解析 - 替换换行符

时间:2012-05-21 18:08:58

标签: parsing html-parsing

我创建了一个简单的html解析代码,它从给定的Xpath获取文本内容。

我的代码:

XPathFactory xFactory = XPathFactory.newInstance();
CleanerProperties props  = new CleanerProperties();
props.setNamespacesAware(false);    
XPath xpathi = xFactory.newXPath();
HtmlCleaner cleaner = new HtmlCleaner(props);
TagNode node = cleaner.clean(rawContent);
org.w3c.dom.Document doc = new DomSerializer(props).createDOM(node);
Object[] obj = xpathi.compile("//div[@class='answer']").evaluate(doc, XPathConstants.NODESET);

在这里我得到的obj填充了预期的答案。但答案中的\ n字符将替换为空字符串。 例如)如果答案是这样的, 一 二 3

我正在接受 我想得到一两三

为此,我需要在CleanerProperties中设置任何属性吗?

任何建议PLZ ..

0 个答案:

没有答案