如何总结网页中文章的主要内容?

时间:2016-10-14 06:24:32

标签: java jsoup summarization boilerpipe classifier4j

我正在尝试为HTML页面编写文章摘要。到目前为止,我使用了boilerpipeclassifier4J

//url can be any url in String
public String getArticleSummaryFromUrl() {
    private Document doc = Jsoup.connect(url).get();;
    String summary = "";
    String article = "";    
    try {
        article = ArticleExtractor.INSTANCE.getText(doc.html());    
        System.out.println("Article ++++ >>" + article);
        SimpleSummariser ss = new SimpleSummariser();       
        summary = ss.summarise(article, 4);
        } catch (BoilerpipeProcessingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }       
        return summary;
}

但是大部分时间代码都没有产生预期的结果,因为句子结构没有正确完成。

我正在努力实现像http://smmry.com/那样整洁的东西。

有没有人知道为你做这件事的任何java库?

0 个答案:

没有答案