Question

我想将网页保存为txtfile。我不想保存代码，我根本不想要代码，我想将页面本身保存为txtfile然后我知道我想用txt文件做什么。

我使用以下代码打开页面

import java.awt.Desktop;
import java.net.URI;


public class Main {

public static void main(String[] args) throws Exception {

    Desktop d = Desktop.getDesktop();
    String url = "http://www.google.com";
    d.browse(new URI(url));
}

}

我也想隐藏浏览，可以吗？

为了更清楚，要将页面保存为txt，按CTRL + S然后选择txt。我根本不想要页面的代码，我尝试使用缓冲的阅读器和输入流，但这根本不是我需要的，因为它们给了我不需要的URL代码。谢谢你的建议。

Answer 1

您最好的选择是使用http://jsoup.org/

这将获得整个页面（我的意思是，使用代码）：

public static String getHTML(String urlToRead) throws Exception {

        if (!urlToRead.startsWith("http"))
            urlToRead = "http://" + urlToRead;

        final StringBuilder result = new StringBuilder();
        final URL url = new URL(urlToRead);
        final HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        conn.setRequestMethod("GET");
        conn.setRequestProperty("User-Agent", USER_AGENT);
//      @SuppressWarnings("unused")
//      final int responseCode = conn.getResponseCode();
        final BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));

        String line;
        while ((line = rd.readLine()) != null)
            result.append(line);
        rd.close();

        return result.toString();
    }

然后您可以创建文档：

final Document doc = Jsoup.parse(content);

从那以后，您就可以自行获取div，span和p s ...

的列表

将网页保存为txt（不是网页代码）

1 个答案: