使用Jsoup获取HTML精确的HTML

时间:2016-08-02 15:35:45

标签: android parsing jsoup

我已经反复出现了一个小问题。 我从一个网站获取html并且我将其格式化正确但是这里的一个问题是其中的图像有大量的空格并且文本开始真的很远。

对此有什么好的解决方法吗?我是这样做的:

public class getDetails extends AsyncTask<Void,Void,Void> {
    @Override
    protected Void doInBackground(Void... voids) {
        Document doc,doc_;
        String test;
        try{
            doc = Jsoup.connect(Global_URL).get();
            Elements elements = doc.getElementsByClass("entry-content");
            doc_ = Jsoup.parse(elements.toString());
            doc_.outputSettings(new Document.OutputSettings().prettyPrint(false));
            doc_.select("br").append("\\n");
            doc_.select("p").prepend("\\n\\n");
            test = doc_.html().replaceAll("\\\\n","\n");
            test = Jsoup.clean(test,"",Whitelist.none(),new Document.OutputSettings().prettyPrint(false));
            dialog_desc = test;
            //dialog_desc = elements.text().toString();

        }
        catch (Exception e){
            e.printStackTrace();
        }
        return null;
    }

1 个答案:

答案 0 :(得分:-1)

而不是使用 Jsoup.parse() .Html()我只使用了 .Text()并解决了问题