我试图将网页上的所有可读单词保存为一个文本文档而忽略html标记。 使用JSoup来解析网页上的所有单词,我对如何从代码中分离真实单词的唯一猜测是通过元素。
是否可以将jsoup文档的多个元素转换为文本文件?
即:
Elements titles = doc.select("title");
Elements paragraphs = doc.select("p");
Elements links = doc.select("a[href]");
Elements smallText = doc.select("a");
目前将解析保存为文档:
Document doc = Jsoup.connect("https:// (enter a url)").get();
答案 0 :(得分:1)
它的简单方法
/usr/local/bin/docker-machine version
答案 1 :(得分:-1)
添加答案,因为我无法在上面发表评论。
在上面的代码中将writer.write(doc.toString());
替换为writer.write(doc.select("html").text());
。
它会在页面上显示文字。
而不是"html"
中的doc.select("**html**").text()
,可以使用其他标记来提取这些标记中包含的文字。
修改:您还可以使用writer.write(doc.body().text());
答案 2 :(得分:-1)
在使用writer.write(doc.text());
的文字中写下您需要写下writer.close();
的下一行后,这将解决问题。