我想将网页保存为txtfile。 我不想保存代码,我根本不想要代码,我想将页面本身保存为txtfile然后我知道我想用txt文件做什么。
我使用以下代码打开页面
import java.awt.Desktop;
import java.net.URI;
public class Main {
public static void main(String[] args) throws Exception {
Desktop d = Desktop.getDesktop();
String url = "http://www.google.com";
d.browse(new URI(url));
}
}
我也想隐藏浏览,可以吗?
为了更清楚,要将页面保存为txt,按CTRL + S然后选择txt。 我根本不想要页面的代码,我尝试使用缓冲的阅读器和输入流,但这根本不是我需要的,因为它们给了我不需要的URL代码。 谢谢你的建议。
答案 0 :(得分:0)
您最好的选择是使用http://jsoup.org/
这将获得整个页面(我的意思是,使用代码):
public static String getHTML(String urlToRead) throws Exception {
if (!urlToRead.startsWith("http"))
urlToRead = "http://" + urlToRead;
final StringBuilder result = new StringBuilder();
final URL url = new URL(urlToRead);
final HttpURLConnection conn = (HttpURLConnection) url.openConnection();
conn.setRequestMethod("GET");
conn.setRequestProperty("User-Agent", USER_AGENT);
// @SuppressWarnings("unused")
// final int responseCode = conn.getResponseCode();
final BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line;
while ((line = rd.readLine()) != null)
result.append(line);
rd.close();
return result.toString();
}
然后您可以创建文档:
final Document doc = Jsoup.parse(content);
从那以后,您就可以自行获取div
,span
和p
s ...