我想以编程方式将网页转换为HTML页面。
我搜索了许多网站但只提供了转换为pdf格式等详细信息。
对于我的程序,我现在保存页面作为.html,然后提取必要的数据。
有没有办法将网页转换为HTML页面?任何人都可以帮助我吗?任何帮助将不胜感激。
我可以详细解释
我正在提取喜欢我管理的网页的用户名。所以我找到了一个链接https://www.facebook.com/browse/?type=page_fans&page_id=pageid,在那里我可以找到用户列表。因此,首先要获得它,我必须将其保存为.html页面,然后提取必要的数据。所以我在这里将其转换为.html然后提取数据。但我需要的是使用我的程序将该页面转换为HTML页面。我希望我的问题现在很清楚
答案 0 :(得分:1)
Oracle提供以下代码段,用于以编程方式检索html页面here。
import java.net.*;
import java.io.*;
public class URLReader {
public static void main(String[] args) throws Exception {
URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
new InputStreamReader(oracle.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
}
}
您可以使用FileWriter和BufferedWriter(来自this question的示例)将内容保存到文件,而不是打印到控制台:
FileWriter fstream = new FileWriter("fileName");
BufferedWriter fbw = new BufferedWriter(fstream);
while ((line = in.readLine()) != null) {
fbw.write(line + "\n");
}
答案 1 :(得分:0)
网页已经是HTML,如果您想将网页另存为HTML,可以通过 Firefox>进行此操作。在Firefox上保存页面 菜单。或者通过其他浏览器上的 文件 菜单。
如果您需要从同一网站或网址列表下载HTML格式的多个网页,那么您可以使用一种软件:[{3}}