解析HTML内容以存储有用信息

时间:2017-07-17 13:47:58

标签: java html

我使用以下代码段来获取基于URL和一些参数的网页。

URL url = new URL("http://location.com");
HttpURLConnection cn= (HttpURLConnection)url.openConnection();
...
Reader in = new BufferedReader(new InputStreamReader(cn.getInputStream(), "UTF-8"));

然后我会迭代in来打印字符。这将打印原始数据。我正在寻找一个HTML解析器来创建

的数据结构
Choose the method:<br><input type="radio" name="id_radio" value="345425" onClick="setTrans()">
            <A HREF="http://server.com/view?db=mirror;trans=345425" TARGET="_new">345425</A> (<i>encoding</i>, 5239 bases)
&nbsp;&nbsp;&nbsp;<A HREF="http://somewhere/M_08076559" TARGET="_new">M_08076559</A>

然后我要提取value345425encoding等内容。我看到一些第三方解析器(例如this)但我没有尝试过,因为1)不知道它们是否符合我的需要2)如果有标准的java api /包以避免第三方码。那么,对此有何评论?

0 个答案:

没有答案