如何将jsoup文档保存为文本文件

时间:2017-03-29 05:59:13

标签: java text jsoup document

我试图将网页上的所有可读单词保存为一个文本文档而忽略html标记。 使用JSoup来解析网页上的所有单词,我对如何从代码中分离真实单词的唯一猜测是通过元素。

是否可以将jsoup文档的多个元素转换为文本文件?

即:

        Elements titles = doc.select("title");
        Elements paragraphs = doc.select("p");
        Elements links = doc.select("a[href]"); 
        Elements smallText = doc.select("a");

目前将解析保存为文档:

 Document doc = Jsoup.connect("https:// (enter a url)").get();

3 个答案:

答案 0 :(得分:1)

它的简单方法

/usr/local/bin/docker-machine version

答案 1 :(得分:-1)

添加答案,因为我无法在上面发表评论。

在上面的代码中将writer.write(doc.toString());替换为writer.write(doc.select("html").text());

它会在页面上显示文字。

而不是"html"中的doc.select("**html**").text(),可以使用其他标记来提取这些标记中包含的文字。

修改:您还可以使用writer.write(doc.body().text());

答案 2 :(得分:-1)

在使用writer.write(doc.text());的文字中写下您需要写下writer.close();的下一行后,这将解决问题。