如何使用Jsoup从网站上抓取所有数据?

时间:2014-06-09 16:25:27

标签: java web-scraping jsoup screen-scraping scrape

我需要从这些网站上抓取所有数据:

我使用JSOUP。并且程序必须从站点中删除所有文本。如您所见,这些网站有不同的结构。所以我应该使用一些常见的东西。

1 个答案:

答案 0 :(得分:0)

试试这个:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class Sample {

    public static void main(String[] args) throws IOException {

        System.out.println(getPrivacyNotice("http://www.gameloft.com/privacy-notice/","div.terms"));
        System.out.println(getPrivacyNotice("http://outfit7.com/privacy-policy/#","div#main"));

    }
    public static String getPrivacyNotice(String url, String tag)throws IOException {
        Document doc= Jsoup.connect(url).get();
        return doc.select(tag).first().text();
    }
}