我正在尝试撰写网页内容的摘要。为此,我需要从网页中提取所有不相关的文本和数据。
我使用过samppipe,但是文本提取不好。结果是here,你可以看到很多不相关的文字。
还尝试通过删除页眉,页脚,外部链接等来删除不相关的数据。但是,结果再次达不到标准。
Document doc = Jsoup.connect("www.anyurl.com").get()
doc.head().remove();
doc.getElementsByTag("header").remove();
doc.getElementsByTag("footer").remove();
doc.getElementsByTag("form").remove();
doc.getElementsByTag("table").remove();
doc.getElementsByTag("meta").remove();
doc.getElementsByTag("img").remove();
doc.getElementsByTag("a").remove();
doc.getElementsByTag("br").remove();
doc.getElementsByClass("tags").remove();
doc.getElementsByClass("copyright").remove();
doc.getElementsByClass("widget").remove();
doc.select("div[class*=foot").remove();
doc.select("div[class*=tag").remove();
doc.select("div[class*=Loading").remove();
doc.select("div[class*=Widget").remove();
doc.select("div[class*=Head").remove();
doc.select("div[class*=menu").remove();
doc.select("p[class*=link").remove();
Elements paragraphs = doc.select("p");
Elements divs = doc.select("div");
formattedOutput = paragraphs.text() + divs.text();
有谁能建议我如何完成这项工作?是否有除samppipe之外的任何Java库,它可以为您完成吗?
答案 0 :(得分:0)
我不是关于java,但你可以使用从网页中提取主要内容
get()