我需要从这些网站上抓取所有数据:
我使用JSOUP。并且程序必须从站点中删除所有文本。如您所见,这些网站有不同的结构。所以我应该使用一些常见的东西。
答案 0 :(得分:0)
试试这个:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
public class Sample {
public static void main(String[] args) throws IOException {
System.out.println(getPrivacyNotice("http://www.gameloft.com/privacy-notice/","div.terms"));
System.out.println(getPrivacyNotice("http://outfit7.com/privacy-policy/#","div#main"));
}
public static String getPrivacyNotice(String url, String tag)throws IOException {
Document doc= Jsoup.connect(url).get();
return doc.select(tag).first().text();
}
}