提取网页的一部分

时间:2010-07-30 14:26:03

标签: android

我在Android上正在做一个应用程序。

我在一个字符串中有一个web(所有HTML)的内容,我需要提取 段落(p元素)中的所有文本都带有class =“content”。

示例:

<p class="content">La la la</p>
<p class="another">Le le le</p>
<p class="content">Li li li</p>

结果:

La la la
Li li li

这样做的最佳方法是什么?

2 个答案:

答案 0 :(得分:1)

import java.io.DataInputStream;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;


public class Test {
    void readScreen () //reads from server
      {
        try
        {
          URL                url;
          URLConnection      urlConn;
          DataInputStream    dis;

          //Open url
          url = new URL("http://somewebsite.com");

          // Note:  a more portable URL:
          //url = new URL(getCodeBase().toString() + "/ToDoList/ToDoList.txt");

          urlConn = url.openConnection();
          urlConn.setDoInput(true);
          urlConn.setUseCaches(false);

          dis = new DataInputStream(urlConn.getInputStream());
          String s;

          while ((s = dis.readLine()) != null)
          {
            System.out.println(s); //this is where it reads from the screen
          }
            dis.close();
          }

          catch (MalformedURLException mue) {}
          catch (IOException ioe) {}
        }

    public static void main(String[] args){

        Test thisTest = new Test();
        thisTest.readScreen();

    }
}

答案 1 :(得分:1)