获取页面内容,格式为nutch格式

时间:2012-01-30 06:15:28

标签: http parsing tomcat solr nutch

在nutch中,我正在寻找一种方法来获取页面内容(包括行,换行和段落)。

即将推出的代码无效,因为它会删除页面的所有格式。

Parse parse = parseResult.get(content.getUrl());    
parse.getText()

甚至

BufferedReader br = new BufferedReader(new InputStreamReader(new   
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

不是解决方案,因为它返回格式化但带有html标记的内容。

我真的希望它采用原始格式,以便能够将其发送到提取所需内容的方法。

由于

1 个答案:

答案 0 :(得分:0)

没有直接的方法可以做到这一点。

根据您的需要研究和修改src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java