将网页转换为HTML

时间:2014-04-24 11:02:18

标签: java html

我想以编程方式将网页转换为HTML页面。
我搜索了许多网站但只提供了转换为pdf格式等详细信息。
对于我的程序,我现在保存页面作为.html,然后提取必要的数据。
有没有办法将网页转换为HTML页面?任何人都可以帮助我吗?任何帮助将不胜感激。

我可以详细解释

我正在提取喜欢我管理的网页的用户名。所以我找到了一个链接https://www.facebook.com/browse/?type=page_fans&page_id=pageid,在那里我可以找到用户列表。因此,首先要获得它,我必须将其保存为.html页面,然后提取必要的数据。所以我在这里将其转换为.html然后提取数据。但我需要的是使用我的程序将该页面转换为HTML页面。我希望我的问题现在很清楚

2 个答案:

答案 0 :(得分:1)

Oracle提供以下代码段,用于以编程方式检索html页面here

import java.net.*;
import java.io.*;

public class URLReader {
    public static void main(String[] args) throws Exception {

        URL oracle = new URL("http://www.oracle.com/");
        BufferedReader in = new BufferedReader(
        new InputStreamReader(oracle.openStream()));

        String inputLine;
        while ((inputLine = in.readLine()) != null)
            System.out.println(inputLine);
        in.close();
    }
}

您可以使用FileWriter和BufferedWriter(来自this question的示例)将内容保存到文件,而不是打印到控制台:

    FileWriter fstream = new FileWriter("fileName");
    BufferedWriter fbw = new BufferedWriter(fstream);

    while ((line = in.readLine()) != null) {

        fbw.write(line + "\n");

    }

答案 1 :(得分:0)

网页已经是HTML,如果您想将网页另存为HTML,可以通过 Firefox>进行此操作。在Firefox上保存页面 菜单。或者通过其他浏览器上的 文件 菜单。

如果您需要从同一网站或网址列表下载HTML格式的多个网页,那么您可以使用一种软件:[{3}}