使用Jsoup解析特定文本

时间:2013-01-13 20:22:16

标签: android parsing html-parsing jsoup android-file

我的res / raw文件夹中有cities.txt个文件。里面包含以下内容。

<div class="state">Alabama</div>
<ul><li><a href="http://auburn.org">auburn</a></li>
<li><a href="http://bham.org">birmingham</a></li> </ul>

<div class="state">Alaska</div>
<ul><li><a href="http://anchorage.org">anchorage</a></li>
<li><a href="http://fairbanks.org">fairbanks</a></li></ul>

<div class="state">Arizona</div>
<ul><li><a href="http://flagstaff.org">flagstaff</a></li>
<li><a href="http://mohave.org">mohave county</a></li></ul>

我想抓住州阿拉巴马州的城市并将其显示在ListView上。输出应该是这样的。

赤褐色

伯明翰

我当前的代码抓取了所有六个城市,并将其显示在ListView上。这是我的代码。

package com.example.readfile;

import java.io.InputStream;
import java.util.ArrayList;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import android.app.Activity;
import android.content.res.Resources;
import android.os.AsyncTask;
import android.os.Bundle;
import android.widget.ArrayAdapter;
import android.widget.ListView;

public class Cities extends Activity {

    ListView listUSCities;

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.city_layout);
        listUSCities = (ListView) findViewById(R.id.listcities);

        new MyTask().execute();

    }

    class MyTask extends AsyncTask<Void, Void, ArrayList<String>> {

        ArrayList<String> arr_linkText = new ArrayList<String>();

        @Override
        protected ArrayList<String> doInBackground(Void... params) {

            Document doc;

            try {
                Resources res = getResources();
                InputStream in_s = res.openRawResource(R.raw.cities);

                byte[] b = new byte[in_s.available()];
                in_s.read(b);

                // Parsing using Jsoup starts here
                doc = Jsoup.parse(new String(b));

                // Parsing the states
                Elements links = doc.select("div");
                for (Element link : links) {
                    if (link.text().contains("Alabama")) {

                        // Extracting the cities
                        Elements cities = doc.select("a");
                        for (Element city : cities) {
                            arr_linkText.add(city.text());
                        }

                    }

                }

            } catch (Exception e) {
                // e.printStackTrace();

            }

            return arr_linkText; // << retrun ArrayList from here
        }

        @Override
        protected void onPostExecute(ArrayList<String> result) {
            ArrayAdapter<String> adapter = new ArrayAdapter<String>(
                    Cities.this, android.R.layout.simple_list_item_1,
                    android.R.id.text1);
            for (String temp_result : result) {

                adapter.add(temp_result);
            }
            listUSCities.setAdapter(adapter);
        }

    }

}

如何仅针对指定的状态提取城市?

在我提取城市以优化速度后,如何停止解析文件?

实际的cities.txt包含更多信息,我只提供了一个示例。我将感谢你的帮助。谢谢!

2 个答案:

答案 0 :(得分:1)

// Parsing the states
                Elements links = doc.select("div");
                for (Element link : links) {
                    if (link.text().contains("Alabama")) {

        // Extracting the cities
        Elements cities = link.select("a");//<- 'doc' is the whole doc, link is your state.
        for (Element city : cities) {
            arr_linkText.add(city.text());
        }
        break;//breaks off the loop, since you have found what you want.

    }

}

答案 1 :(得分:0)

这是HTML文档的奇怪结构。 <div>仅用于标题,列表单独关闭。看到你修剪了实际文件,这可能会也可能不会奏效。您所追求的元素位于ul后面的div元素中,因此您需要转到下一个兄弟并在那里搜索。这仅在您的divul元素之间没有其他元素时才有效。

Elements links = doc.select("div");
for (Element link : links) {
    if (link.text().contains("Alabama")) {
       // Extracting the cities in the list that is next in the DOM
        Elements cities = link.nextElementSibling().select("a");
        for (Element city : cities) {

            arr_linkText.add(city.text());
        }
}

}