Question

我试图将网页上的所有可读单词保存为一个文本文档而忽略html标记。使用JSoup来解析网页上的所有单词，我对如何从代码中分离真实单词的唯一猜测是通过元素。

是否可以将jsoup文档的多个元素转换为文本文件？

即：

        Elements titles = doc.select("title");
        Elements paragraphs = doc.select("p");
        Elements links = doc.select("a[href]"); 
        Elements smallText = doc.select("a");

目前将解析保存为文档：

 Document doc = Jsoup.connect("https:// (enter a url)").get();

Answer 1

它的简单方法

/usr/local/bin/docker-machine version

Answer 2

添加答案，因为我无法在上面发表评论。

在上面的代码中将writer.write(doc.toString());替换为writer.write(doc.select("html").text());。

它会在页面上显示文字。

而不是"html"中的doc.select("**html**").text()，可以使用其他标记来提取这些标记中包含的文字。

修改：您还可以使用writer.write(doc.body().text());

Answer 3

在使用writer.write(doc.text());的文字中写下您需要写下writer.close();的下一行后，这将解决问题。

如何将jsoup文档保存为文本文件

3 个答案: