我正在使用boilerpipe
库来分析新闻文章。新闻文章包含许多样板信息,如版权信息,相关文章的侧窗格等。Boilerpipe
删除所有信息。是否可以返回样板信息?我需要从版权声明中分析和提取一些东西等。
此外,它是否包含对每个文本块的某种信心,以确定它是否是样板文件?
感谢。
答案 0 :(得分:1)
您可以使用文档类样板文件提供整个文本或遍历实际文本块:
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document