如何从网页中提取主要内容?

时间:2016-10-21 05:06:00

标签: java jsoup extraction boilerpipe

我正在尝试撰写网页内容的摘要。为此,我需要从网页中提取所有不相关的文本和数据。

我使用过samppipe,但是文本提取不好。结果是here,你可以看到很多不相关的文字。

还尝试通过删除页眉,页脚,外部链接等来删除不相关的数据。但是,结果再次达不到标准。

    Document doc = Jsoup.connect("www.anyurl.com").get()
    doc.head().remove();
    doc.getElementsByTag("header").remove();
    doc.getElementsByTag("footer").remove();
    doc.getElementsByTag("form").remove();
    doc.getElementsByTag("table").remove();
    doc.getElementsByTag("meta").remove();
    doc.getElementsByTag("img").remove();
    doc.getElementsByTag("a").remove();
    doc.getElementsByTag("br").remove();

    doc.getElementsByClass("tags").remove();
    doc.getElementsByClass("copyright").remove();
    doc.getElementsByClass("widget").remove();

    doc.select("div[class*=foot").remove();
    doc.select("div[class*=tag").remove();
    doc.select("div[class*=Loading").remove();
    doc.select("div[class*=Widget").remove();
    doc.select("div[class*=Head").remove();
    doc.select("div[class*=menu").remove();
    doc.select("p[class*=link").remove();

    Elements paragraphs = doc.select("p");
    Elements divs = doc.select("div");

    formattedOutput = paragraphs.text() + divs.text();

有谁能建议我如何完成这项工作?是否有除samppipe之外的任何Java库,它可以为您完成吗?

1 个答案:

答案 0 :(得分:0)

我不是关于java,但你可以使用从网页中提取主要内容

get()