如何使用样板文件从HTML获取文章的主要内容?

时间:2016-10-10 06:53:31

标签: java summarization boilerpipe

我正在尝试使用boilerpipe代码从HTML中获取文章的主要内容。

here下载最新的罐子。

我正在尝试使用以下代码:

String article = "";
try {
    article = ArticleExtractor.INSTANCE.getText(url);   
    System.out.println("Article ++++ >>" + article);    
} catch (BoilerpipeProcessingException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

但是这会为每个网址返回一个空字符串。任何人都可以帮我吗?

1 个答案:

答案 0 :(得分:2)

您是否尝试过传递HTML本身而不是网址?或者,您的网址字符串格式化方式可能存在问题。