Question

此外，它是否包含对每个文本块的某种信心，以确定它是否是样板文件？

感谢。

Answer 1

您可以使用文档类样板文件提供整个文本或遍历实际文本块：

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document

使用samppipe保留样板

1 个答案: