将HTML文件转换为文本文件

时间:2017-05-24 17:16:31

标签: jsoup

我获得了一个html文件,我需要将文本移动到我将创建的新textFile中。我不知道我是否走在正确的轨道上。我应该先把它变成一个Document然后一个textFile吗?我目前正在做的是正确的吗?对不起,我是初学者,有点困惑。

public void parseIntoFile(){
    Document docParse = Jsoup.parse("example.html");
}

1 个答案:

答案 0 :(得分:1)

HTML通常用于描述文档,因此它已经是一个文档。您的工作是收集该文档的描述部分,并以您选择的方式将文本文件放在一起。例如,<h1>是页面的标题。 <p>包含一段文字,依此类推。

这部分是doctype(DTD)在顶部的原因。它是文档类型定义,描述文档中每个元素的“类型”或含义。