使用HTTP GET和正则表达式从网站读取数据

时间:2012-11-02 13:24:20

标签: java httpwebrequest

我有一个PHP脚本,可以打印“在线”“离线”之类的内容以及在特定时间内更改的特定数字。我找到了一个http get请求的例子,现在我需要像Regex这样的东西,对吧? :o有没有人有教程或能给我一个简单的例子?

请求代码:

String urlString;
urlString = "hear is my url^^";
URL url = new URL(urlString);
URLConnection conn = url.openConnection();
InputStream IS = conn.getInputStream();

Inputstream IS是网站的“源代码”,对吗?

2 个答案:

答案 0 :(得分:2)

你是对的。 IS包含HTML源。您应该考虑使用HTML解析库来提取数据。正则表达式将是脆弱的。那里有很多html解析器。看下面的SO帖子

HTML/XML Parser for Java

答案 1 :(得分:0)

实际上你不需要使用URLConnection从PHP脚本中获取数据。 您可以使用Jsoup库从PHP脚本获取数据,并使用此库可以根据需要解析数据。 你会从这里得到它

Jsoup API

以下是如何使用它。

Cookbook for Jsoup